Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
February 21, 2024
February 24, 2024
Первый день открытых данных в Армении пройдёт 2 марта в Loft Yerevan, в форме митапа, если Вы тут находитесь или будете проездом - заходите. Будут мастер-классы, рассказ про то что мы делаем в Open Data Armenia, разговоры о проектах на открытых данных в Армении. А также на ODD Армения я расскажу, наконец-то, про поисковик по открытым данным над которыми мы работали почти год (спойлер - более 10 миллионов датасетов, моментальный поиск). Это будет оффлайн, без трансляции, но точно интересно.


6 марта пройдет виртуальный Open Data Day в России (Москве) https://opendataday.ru/msk, запишите его себе в календарь и присоединяйтесь онлайн. Российский ODD будет целиком из докладов сообщества и его программа скоро будет доступна. После него обязательно будут видеозаписи и вот тут я также расскажу про поисковик на данных и это уже будет на более широкую аудиторию. Следите на сайте и в ТГ канале Инфокультуры @infoculture.

#opendata #opengov #vents #opendataday
February 26, 2024
Forwarded from Open Data Armenia
February 26, 2024
February 26, 2024
Я тут читаю про российский Евразийский IT-форум (ссылки давать не буду, легко гуглится) и мнение имею что в общем-то российским госИТ продавать там нечего. Есть ли что продавать негосударственным ИТ ничего не скажу, скорее всего есть, но поможет ли им в этом российское гос-во есть некоторые, немалые сомнения.

Что могу сказать точно, так это то что результаты более чем скромные. Внедрение того же Гостеха или Госуслуг в Беларуси, если оно когда-либо, случится, то будет исключительно за деньги российского бюджета. Во внедрения в странах АСЕАН я просто не верю, там есть те кто сами могут много что продавать другим. Так же как и в случае арабских стран.

Меня, признаться, удивило отсутствие представителей Талибана в участниках, они как-то естественно бы там смотрелись вместе с представителями Ирана и КНДР😜😱

Но физически меня там не было, так что если у кого-то есть интересные инсайды, то было бы интересно послушать тех кто знает больше/лучше. Можно анонимно, источники раскрывать не буду 🙊

#government #it
Please open Telegram to view this post
VIEW IN TELEGRAM
February 26, 2024
Forwarded from Инфокультура
February 27, 2024
February 28, 2024
В качестве регулярного напоминания, в России уже 11 месяцев как отсутствует федеральный портал открытых данных data.gov.ru. Он был "закрыт на ремонт" Минэкономразвития РФ в марте 2023 года [1] и с тех пор не возвращён к жизни, несмотря на то что его "перенос на Гостех" должен был завершиться к январю 2024 года.

В истории Минэка - это не последняя плохая история в их информатизации и зоной ответственности, но очень показательная поскольку закрыли старую версию портала до того как открыли новую. В общем-то всем понятно что просто хотели закрыть.

Ссылки:
[1] https://yangx.top/begtin/4714

#opendata #closeddata #russia
February 28, 2024
February 29, 2024
February 29, 2024
К вопросу о инвентаризации данных, это, как ни странно, до сих пор большая-актуальная тема как в корпоративном мире, так и в задачах data discovery (поиска данных) и создания каталогов открытых данных. Нашёлся ещё один свежий ресурс, шаблон по инвентаризации данных от Open Contracting [1].

Честно говоря, у меня лично он не вызывает какого-то восторга, довольно простой гайд и простая форма для заполнения. Даже карточки регистрации датасетов в CKAN и других каталогах данных выглядят куда обстоятельнее, а в корпоративных каталогах данных всё ещё интереснее.

Кроме того то что они называют Dictionary, по факту это схема данных и заполнять это вручную, скажем так, непрофессионально. Сбор структуры полей из файлов с данными вполне автоматизируем.

Тем не менее, для какого-то упрощённого подхода в инвентаризации это применимо.

А я напомню про разницу в инвентаризации данных между открытыми каталогами, госкаталогами и бизнес потребностями:

Для бизнеса ключевое:
- максимально полный охват внутренних ресурсов (баз данных)
- фиксация всех режимов доступа (кто имеет право доступа к чему)
- прослеживаемость данных, data lineage и тд.
- автоматизация измерения качества данных
- инвентаризация не только данных, но и всех data flows (процессов и потоков обработки данных)
- автоматически/автоматизированно актуализируемая документация

Для государства:
- сведения о информационной системе
- нормативный статус данных
- идентификация ответственного/владельца данных
- режим доступа к данным
- не только базы данных, но и все дата файлы и то что должно быть превращено в дата файлы

Для открытых и общедоступных данных:
- условия повторного использования
- контакты ответственного лица
- общедоступная документация
- сведения о повторном использовании и публикациях на основе данных


Ссылки:
[1] https://www.open-contracting.org/resources/data-inventory-template/

#opendata #data #datainventory #readings
February 29, 2024
Интересные open source проекты про данные и не только:
- pipelined query language [1] - Спецификация и реализация компилятора из языка PQL в диалекты SDQL. Идеологически вдохновлён Kusto Query Language [2] от Microsoft, выглядит любопытно, особенно если проект проживёт долго и будет применяться.
- FileQL [3] - очередная реализация принципа "всё SQL", обёртка для SQL запросов в отношении операций с файловой системой.
- Magika [4] - программный модуль для Python и утилита по определению типа файла на основе модели обученной с помощью ML. Обещают лучшую точность и всё такое. Фактически замена программы magic для аналогичных целей в Unix/Linux.
- Gatus [5] продвинутый монитор доступности и статуса серверов/сервисов, ориентирован на разработчиков, управляется через YAML файлы конфигурации
- SSH3 [6] эволюция протокола SSH2 для дистанционного подключения к терминалам на удалённых серверах. Обещают большую производительность и большую безопасность. Может быть полезно для проксирования трафика тем кому это нужно.

Ссылки:
[1] https://github.com/runreveal/pql
[2] https://learn.microsoft.com/en-us/azure/data-explorer/kusto/query/
[3] https://github.com/AmrDeveloper/FileQL
[4] https://github.com/google/magika
[5] https://github.com/google/magika
[6] https://github.com/francoismichel/ssh3

#opensource #datatools
February 29, 2024
February 29, 2024
March 1, 2024
This media is not supported in your browser
VIEW IN TELEGRAM
March 1, 2024
В качестве небольшого оффтопика подписывайтесь на телеграм канал @ministryofpoems где в поэтической, в основном, форме, а иногда и в прозе и в визуализации появляются стихи которые, конечно же, ни на что не намекают и никакого отношения к реальности не имеют. Вот пример графом, а также прообраз в виде стихотворной стенограммы https://yangx.top/ministryofpoems/247
March 1, 2024