Ivan Begtin
8.1K subscribers
1.97K photos
3 videos
102 files
4.68K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Свежее чтение про данные:
- Make a data engineer cry with just 4 words [1] очень смешной тред в твиттере, многое напоминает истории с открытыми данными. А варианты вроде Dataset stored in PowerPoint прекрасны и это тоже из жизни
- The Death of Data Modeling - Pt. 1 [2] о том что процесс моделирования данных требует перезапуска
- Data Mesh: Topologies and domain granularity [3] о гранулярности в проектах Data Mesh. Взгляд скорее сверху, чем от живых примеров, но для общего понимания полезно
- We should phase the "SQL Interview" out [4] о том почему интервью разработчиков с тестированием знания SQL бессмысленны и надо чтобы они понимали природу данных и умели бы работать разными инструментами
- Duo, the Push, and the Bandits [5] о том как устроена мотивационная система в Duolingo и о их технической архитектуре
- HTREC 2022 [6] конкурс по распознаванию греческих и византийских текстов на папирусе. Приз скромный - трэвел грант поездки в Венецию, но сама задача сложная и интересная. Участвовать можно почти из любой страны

Ссылки:
[1] https://twitter.com/AdiPolak/status/1533490998562660352
[2] https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1
[3] https://towardsdatascience.com/data-mesh-topologies-and-domain-granularity-65290a4ebb90
[4] https://counting.substack.com/p/we-should-phase-the-sql-interview
[5] https://vicki.substack.com/p/duo-the-push-and-the-bandits
[6] https://www.aicrowd.com/challenges/htrec-2022

#reading #news #data #ai
Я выложил в открытый код очередной компонент нашей платформы по публикации данных APICrafter с таким же названием apicrafter это инструмент/утилита/библиотека кода по автоматическому созданию API поверх NoSQL СУБД, сейчас это MongoDB. Внутри используется REST API фреймворк Python Eve, а сам движок предполагает создание только read-only API, для публикации и раскрытия данных.

Его особенности:
- автоматическое обнаружение таблиц и генерация схем данных для MongoDB
- все настройки через файлы YAML
- управление API в проектном режиме, для каждого проекта создаётся отдельный проект.

Основной сценарий использования - это когда Вы не хотите детально моделировать данные которые у Вас есть в наличии, но Вам необходимо кому-то их предоставить или использовать для интеграции систем. Тогда данные закидываются в MongoDB как есть и с помощью этой утилиты создаётся API.

Скажу сразу сейчас это упрощённая утилита, не отрабатывающая сложных сценариев, без уникальных урлов каждого объекта и тд., необходимая именно для того чтобы быстро выставить наружу API к какой-либо базе данных

Всё это отдельные внутренние части каталога данных DataCrafter (datacrafter.ru). Изначально она была сделана по монолитному режиму и в последний год я её разбирал и выкладывал по компонентам:
- metacrafter - идентификация семантических типов данных
- datacrafter - ETL для работы с большими батчами (как правило в открытых данных)
- apicrafter - фреймворк для создания API поверх MongoDB

Следующая версия каталога уже будет иметь какое-то другое название и собираться из этих компонентов почти по новой.


#opendata #data #opensource #datatools #apicrafter #datacrafter
IBM ушёл из России, но сервера и ПО IBM госзаказчики покупать не перестали. Свежий контракт на 800 млн. руб. подведа Федерального Казначейства (ФКУ ЦОКР) с ООО "Интегрейтед Сервисес Групп" [1] на поставку серверов и комплектующих. Сервера, вроде как, декларируются как российские сервера Аквариус, а в списке аппаратного обеспечения сплошняком оборудование и программное обеспечение IBM, вроде IBM AIX Enterprise Edition.

Так может IBM ещё не ушёл из России или ушёл только номинально?

Ссылки:
[1] https://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=1770989550922002235&contractInfoId=73395724

#government #procurement
В рубрике интересных наборов данных база стоимости услуг госпиталей в США [1] размещённая на платформе Dolthub. Особенность в том что Dolthub организуют регулярные конкурсы краудсорсингового сбора данных и эта база данных также собирается волонтерами которым за это ещё и существенно платят, нельзя сказать что копейки, общий бюджет на создание такого набора данных - $15 тысяч и в списке лидеров есть те кто заработал уже более $5 тысяч.

Dolthub позиционируют себя как Git для данных и у них, действительно, хороший продукт с интересными возможностями.

Но вот свой потенциал в части организации таких конкурсов они недооценивают.

По моему скромному мнению рано или поздно их купит один из крупных международных big tech холдингов вроде MS, IBM, Oracle, Google, Amazon или кто-то вроде и поставят такие конкурсы на поток совместно с инициативами Data4Good и другими гуманитарными проектами связанными с работой с данными.

Ссылки:
[1] https://www.dolthub.com/repositories/dolthub/hospital-price-transparency-v3

#opendata #dolthub #dataplatforms #datasets
В рубрике интересных инструментов с открытым кодом для работы с данными:
- sowego [1] утилита и библиотека для Python по линковке больших каталогов данных с Wikidata
- vector [2] ETL от Datadog по созданию труб данных для работы с логами и метриками.
- RecordLinkage [3] библиотека для Python по связыванию похожих структур
- Inception [4] инструмент/платформа для семантического аннотирования текстов
- Dedupe [5] ещё один инструмент для избавления дубликатов в Python
- Streamlit [6] платформа по быстрому развертыванию дата приложений на Python.
- Bdbag [7] инструмент работы со стандартом научных данных BagIT и большими данными
- schema.data.gouv.fr [8] исходный код французского правительственного репозитория схем [9]․ Все схемы в JSON, с документацией, отслеживанием изменений и тд. Очень редкий для гос-ва системный подход
- NoProto [10] ещё один стандарт сериализации данных, с поддержкой схем, сортировкой и другими фичами. К нему же референсные реализации на JS и Rust
- Confluent Schema Registry [11] реестр схем данных для Kafka, на базе JSON Schema
- Records [12] библиотека для Python для удобной работы с SQL, поддерживает только SQL СУБД.
- Miraql [13] удобный визуализатор API и схем Graphql

Ссылки:
[1] https://github.com/Wikidata/soweego
[2] https://github.com/vectordotdev/vector
[3] https://github.com/J535D165/recordlinkage
[4] https://github.com/inception-project/inception
[5] https://github.com/dedupeio/dedupe
[6] https://github.com/streamlit/streamlit
[7] https://github.com/fair-research/bdbag
[8] https://github.com/etalab/schema.data.gouv.fr
[9] https://schema.data.gouv.fr
[10] https://github.com/only-cliches/NoProto
[11] https://github.com/confluentinc/schema-registry
[12] https://github.com/kennethreitz/records
[13] https://github.com/oslabs-beta/miraql

#datatools #data #opensource
В рубрике больших открытых наборов данных стандарт сериализации данных HDT [1], используется для бинарной сериализации данных в формате RDF, используемом при разработке проектов в области семантического веба и онтологий. На сайте стандарта опубликовано множество датасетов [2] самый большой из них - набор данных Wikidata размером в 149GB.

Для работы с этим форматом есть библиотеки для C++ и Java, а также настольное приложение.

Ссылки:
[1] https://www.rdfhdt.org/
[2] https://www.rdfhdt.org/datasets/

#opendata #datasets
Вышла версия 2.0 Meltano [1] ELT движка интегрированного в Modern Data Stack, все изменения как раз про эту интеграцию. В частности там поддерживается:
- dbt для трансформации данных
- Great Expectations для качества данных
- Airflow для управления потоками данных
- Superset для аналитики

И ещё много чего. На поляне ELT у Meltano сейчас возможно наилучший потенциал, растущее сообщество и хорошее развитие продукта. Если думать с каким ELT движком интегрировать свои продукты то Meltano - это хороший вариант.

Ссылки:
[1] https://meltano.com/blog/meet-meltano-2-0/

#opensource #datatools #etl #elt #moderndatastack
Я довольно давно хочу написать рефлексию по поводу продолжающегося закрытия данных в России, о причинах этого и о причинах того почему ранее открытость государства/информации/данных в какой-то форме присутствовали.

Дело в том что открытость - это одна из характеристик жизни экосистемы. Например, пока была хоть какая-то внешняя и внутренняя политическая жизнь в России то и были доступны данных связаны с этой политической жизнью.

Пока была живая экономика - открытость присутствовала потому что доступность информации необходима для инвесторов, владельцев бизнеса и иных лиц принимающих решения. В странах с сильным фондовым рынком финансовая и экономическая открытость данных очень высока и, обычно, если и имеет ограничения то только стоимостные.

Пока была жива какая-то внутрироссийская невоенная повестка была жива тема данных характеризующих качество жизни. Она и сейчас жива, в ней всегда были и есть разнонаправленные тенденции интересов держателей ресурсов и "подневольного населения", но сама тема и проблема никуда не исчезала.

Пока была жива наука там была повестка открытости и из-за мирового движения к Open Access, и из-за необходимости понимать что же за исследования по факту происходят. Сейчас ключевой вопрос открытости науки в России, в том а кому эта открытость будет нужна? Кто будет воспроизводить исследования если международной повестки более нет?

И так далее, какую тему не возьми, всюду открытость, является одной из характеристик жизни. Собственно когда доступная информация начинает превращаться в индикаторы смерти или глубокой болезни какой-то среды, то и политические власти, регуляторы, иные заинтересованные лица делают всё возможное для искажения данных или полного их сокрытия.

#opendata #thoughts
OpenOwnership, международный проект по стандартизации и содействию раскрытия реальных бенефициаров юридических лиц по всему миру, опубликовали руководство-обзор-рекомендации по введению санкций против стран которые не обеспечивают раскрытие информации о бенефициарных владельцах [1].

Документ полезный для специалистов по комплаенс и для понимания развития регулирования в мире в части прозрачности информации о владении компаниями.

Для тех кто не отслеживал мои прошлые публикации про Open Ownership, это одна из интересных международных инициатив по стандартизации публикации открытых данных с фокусом на раскрытие данных о реальных владельцах. Это главное что отличает их от проекта OpenCorporates где собрана информация только о учредителях. Уже сейчас по стандарту Open Ownership опубликованы реестры нескольких стран: Словакий, Украина, Великобритания, Дания и ряд других.

Ссылки:
[1] https://www.openownership.org/en/publications/designing-sanctions-and-their-enforcement-for-beneficial-ownership-disclosure/

#opendata #datastandards
У Ben Stancil очередное замечательное рассуждение Microsoft, Google, and the original purple people [1] о том как устроены экосистемы продуктов по работе с данными и, что мне отметилось, он разбирает экосистему Microsoft и Google и отмечает что большое преимущество Microsoft в хорошей упаковке и совместной работе продуктов несмотря на то что по отдельности их продукты хуже некоторых на рынке, но интеграция между ними реально хороша.

У Google такого нет и слишком часто каждый их продукт это вещь в себе, тяжелая в интеграции даже с другими Google продуктами.

Хороший текст, мне нравятся рассуждения Бена, для основателя стартапа он на редкость вдумчив и пишет без маркетинговых лозунгов, но так что вчитываешься.

Его рассуждения натолкнули и меня про рассуждения про российские облачные продукты.

И тут у меня есть тезис - их не существует. Не существует не в том смысле что их нет на рынке, вроде как есть там что-то у VK и даже Яндекс.Облако, как бы существует, а кто-то ещё вспомнит про Selectel и других, но, есть существенная проблема - ни Яндекс, ни VK существенной ставки на их продукты не делают. А все остальные слегка в незрелом состоянии. По идее они все должны были с начала февраля запускать программу миграции с зарубежных сервисов и вложится в маркетинг, предлагать бесплатные 2-3 месяца тем кто переезжает, предлагать услуги по миграции, потому что, казалось бы, вот такая гигантская рыночная возможность. Ну как её упустить?

Но ни Яндекс, ни VK, не рассматривают облака и сетевую инфраструктуру как инструмент заработка или рыночного доминирования. Как это делают Amazon, Google, Microsoft и ещё ряд международных big tech компаний.

Инфраструктуру обработки данных всё ещё удобнее делать не в России, а в международных облачных провайдерах. Если есть валюта, и возможность, конечно. Тем кто может это делать.

Кстати знает ли кто-либо в России какую-либо крупную инфраструктурную компанию похожую на Яндекс или VK, но с прицелом на облачную инфраструктуру или я прав утверждая что таких нет?


Ссылки:
[1] https://benn.substack.com/p/the-original-purple-people

#datainfrstructure #clouds #data #readings
Toolkit on Digital Transformation for People-Oriented Cities and Communities [1] руководство по цифровой трансформации городов от ITU и UNDP (структуры ООН).

Включает курс с рассказом о используемых инструментах. Также включает гайд в виде книжки [2].

В модуле 3 [3] Data Processing and Management одним из инструментов являются открытые данные в контексте доказательной политики (evidence- based policy making).

В целом ООН во всех сферах делает акцент на открытых данных, создаёт собственные порталы, упоминает в материалах всех своих структур.

Ссылки:
[1] https://toolkit-dt4c.itu.int/
[2] https://www.itu.int/en/publications/Documents/tsb/2022-Toolkit-on-digital-transformation-for-people-oriented-cities-and-communities/index.html
[3] https://toolkit-dt4c.itu.int/module-3/

#opendata #undp #itu
dyn.webm
837.8 KB
Dynamic World [1] проект World Resource Institute и Google по визуализации изменений на карте мира после катастроф, таких как пожары, наводнения, войны, извержения вулканов. На сайте карта с разрешением до 10 метров, много примеров катастроф и научная работа посвящённая этому проекту [2].

Главное что обещают, почти реальное время обновления данных. 5000 изображений обновляется ежесуточно, в зависимости от локации общее время обновления составляет от 2 до 5 дней.

Проекту не хватает разве что API и возможности исследователям работать с первичными данными напрямую, но думаю что это скоро появится причём в связке с UNDP и Humanitarian Data Exchange, уж очень эти проекты комплиментарны и подходят друг другу.

Ссылки:
[1] https://www.dynamicworld.app/
[2] https://www.nature.com/articles/s41597-022-01307-4

#data #google #wri #dataproducts
Для тех кто регулярно пользуется ETL/ELT инструментами, обновился Apache Hop, визуальный ETL движок с большим числом встроенных трансформаций над данными [1]. В новой версии 2.0 осуществили переход на Java 11 и кучу новых плагинов [2].

Лично я не отношу себя к фанатам Hop да и других ETL продуктов из экосистемы Apache, всё таки продукты вроде Meltano, Dagster, Prefect и др. написанные на Python, Go и тд. представляются мне куда более практичными, но для ряда задач инструменты вроде Hop могут быть полезны. Например, когда изначально инфраструктура построена на других продуктах из экосистемы Apache и основной язык разработки Java.

Ссылки:
[1] https://hop.apache.org/
[2] https://hop.apache.org/blog/2022/06/hop-2.0.0/

#datatools #etl #opensource
it_companies_taxes_20220612.xlsx
288.1 KB
В рубрике полезных наборов данных, реестр ИТ компаний имеющих подтверждённые налоговые льготы в ФНС и работа в которых позволяет получать льготную ипотеку. Не путайте с реестром аккредитованных ИТ компаний где чего только нет!

Данные в формате Excel для журналистов и аналитиков, потом эти и другие данные загрузим в каталог данных DataCrafter.

Больше о наборах данных будет в новостях на @apicrafter.

#datasets #opendata
Издание Собака собрало мнения про то что будет если Россию отключат от европейских точек обмена трафиком [1]. Я там тоже прокомментировал как смог. Ключевое - надо понимать что любые ограничения трафика всегда вредят потребителям, с чьей бы стороны эти ограничения не возникали.

Ссылки:
[1] https://www.sobaka.ru/city/internet/151253

#network #connectivity
Юлия Старостина в The Bell пишет о том что Минфин РФ засекретил данные оперативного отчета о бюджете [1] и в опубликованных данных теперь нет детализации расходов.

Действительно, если сравнить предварительную оценку исполнения федерального бюджета за январь-апрель 2022 года опубликованную 17 мая Минфином [2] и предварительную оценку исполнения федерального бюджета за январь-май 2022 года [3] то видно что данные закрыты.

Туда же я бы добавил то что Федеральное Казначейство перестало публиковать оперативные отчеты по исполнению федерального бюджета, последний был на 1 апреля 2022 г. и опубликован 15 апреля и изменен 25 апреля [4], а также с февраля 2022 года не публикуется ежемесячная статистика государственных финансов [5] и ещё много чего.

Как тут не вспомнить что ещё недавно речь шла про высокую степень открытости российского бюджета, а теперь нет никого из официальных лиц кто мог бы сказать о том что закрывать данные бюджета ошибочно.

Недавно я писал о том что открытость - это признак жизни [6] экономической системы и общественной жизни, чуть позже я доделаю на эту тему большой текст, я как раз над ним работаю.

Закрытие данных о бюджете укладывается в идею "омертвения" бюджетной активности. Не стоит верить тем кто утверждает что оно нужно для сокрытия военных расходов или усложнения работы разведчиков других стран. Причины закрытия подобных данных куда более прозаичны.

Первое - это сокрытие сигналов о реальном состоянии экономики от внутренних экономических агентов. Без достоверной информации многие не могут планировать свои действия. Закрытие данных один из сигналов _крайне плохого состояния_ сейчас и в будущем

Второе - это перераспределение финансовых (бюджетных) потоков. Фактически это означает что ограниченная группа лиц близкая к политическому руководству будет иметь значительно больше информации и, как следствие, ещё большую монополию на распределение бюджетных ресурсов.


Ссылки:
[1] https://thebell.io/minfin-zasekretil-dannye-po-raskhodam-rossiyskogo-byudzheta
[2] https://minfin.gov.ru/ru/press-center/?id_4=37915-predvaritelnaya_otsenka_ispolneniya_federalnogo_byudzheta_za_yanvar-aprel_2022_goda
[3] https://minfin.gov.ru/ru/press-center/?id_4=37970-predvaritelnaya_otsenka_ispolneniya_federalnogo_byudzheta_za_yanvar-mai_2022_goda
[4] https://roskazna.gov.ru/ispolnenie-byudzhetov/federalnyj-byudzhet/1021/
[5] https://roskazna.gov.ru/ispolnenie-byudzhetov/statistika-gosudarstvennykh-finansov-rf/1038/
[6] https://yangx.top/begtin/3955

#budget #openness #govfinances #government
Довольно много обсуждений сейчас в профессиональных сообществах о том кто такие дата инженеры, как и кто их готовит, чем они занимаются. А я не могу не напомнить Data Engineering Manifesto [1].

Если заниматься самоидентификацией, я бы отнес себя именно к дата инженерам. Сомнения лишь в том что кроме технических задач я много лет занимаюсь просветительством, популяризацией, открытыми данными, публицистикой и общественной деятельностью. Но если спросить меня про профессию с которой я бы идентифицировал себя, я бы начал именно с инженерии данных.

Ссылки:
[1] https://www.dataminded.com/data-engineering-manifesto

#dataengineering
Написал лонгрид расширяя тему открытости как признака жизни цифровых экосистем [1] и всё больше склоняюсь к тому что единственный способ поддержания открытости, включая открытость данных, это наличие активных и институциональных потребителей этой открытости.

Это примерно как то что открытость науки не работает без науки, а открытость данных для дата-журналистов не работает без живой журналистики и так далее.

Ещё в лонгриде я не приводил такого примера, но вот можно посмотреть на ту же законопроектную деятельность у нас в стране. Она довольно таки открыта, можно увидеть результаты голосования депутатов, тексты законопроектов, есть данные, видеозаписи и тд. Вот только в виду конструкции политической системы от этой открытости нет практического толка, поскольку она не позволяет как-либо влиять на принятие решений.

Помимо этого почти все те кто могли бы эту открытость использовать, либо признаны инагентами, либо на грани признания.

Ссылки:
[1] https://begtin.substack.com/p/26?sd=pf

#opendata #openness #opengov
Признаться я не слежу именно за ПМЭФом, но немного слежу за тем что касается ИТ отрасли. В канале Минцифры приводят фразу Чернышенко (вице-премьер) , я воспроизведу её часть.
...По данным Минцифры, до конца года в реестре отечественного ПО будет зарегистрировано 35 тыс. компаний. Стоит отметить, что они приходят не только за льготами (а они беспрецедентны), мы понимаем, что условия для ведения ИТ-бизнеса в России выгоднее, чем во всем мире, отрасль уже начинает показывать результат...

Я, честно говоря, этот оптимизм не разделяю, но обратить внимание хочу на некоторые ошибки:
1. В реестре отечественного ПО совершенно точно нет и не может быть 35 тысяч компаний, в лучшем случае 4-5 тысяч. Не все российские ИТ компании создают, регистрируют, патентуют ПО, увы.
2. 35 тысяч компаний - это цифра близкая к реестру аккредитованных ИТ компаний. Я про этот реестр уже писал неоднократно, не надо путать аккредитованные компании с ИТ рынком. Среди аккредитованных ИТ компаний есть ЧОПы, родильные дома, поликлиники и Высшая школа экономики и ещё много чего не ИТшного. По хорошему этот реестр надо резать и оставлять в нём только тех кто имеет ИТ льготы (около 8-9 тысяч компаний).
3. Не дай то Бог конечно если ещё и реестр отечественного ПО превратится в такую же помойку как реестр аккредитованных ИТ компаний. Реестр отечественного ПО неидеален и, по хорошему, его надо расширять SaaS, PaaS, IaaS сервисами и ещё много чем, но я лично приветствую его систематизацию и развитие в сторону возможности анализа ИТ рынка.

Вот как-то так.

UPD: Ведущие телеграм канал Минцифры слова Чернышенко поправили и как говорят слушавшие его речь - говорил он про реестр аккредитованных, но проблемы мусорности реестра аккредитованных компаний это не отменяет.

Ссылки:
[1] https://yangx.top/mintsifry/1215

#registries #it #itmarket