Ivan Begtin
8.1K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике российской специфики публикации открытых данных я уже немало ранее писал о том что российские практики публикации открытых данных весьма специфичны (с) и значительно отличаются от лучших мировых практик. Например, при публикации датасетов практически не используется спецификация по стандарту schema.org, не используется типовое ПО для публикации датасетов, не используются стандарты такие как DCAT, бывает что и датасеты доступны только после авторизации на Госуслугах.
А вот ещё одна необычная практика, датасеты системы Государственного водного реестра публикуются в виде ZIP файла с цифровой подписью [1]. Я такого ранее не встречал, впервые вижу подобную практику и, честно говоря, не то чтобы осуждаю, но считаю довольно бессмысленной.

Да и сами данные публикуются в этой системе без страниц карточек датасетов, в результате невозможно сослаться на конкретный набор данных, только на страницу всех наборов.

Что тут скажешь, хорошо что хоть что-то публикуют и обновляют данные. Даже если и не особенно любят людей.

Ссылки:
[1] https://gis.favr.ru/web/guest/opendata

#opendata #russia #water #data
Напоминаю что день открытых данных в России пройдёт 1 марта, в эту субботу, совсем скоро и что его программа уже доступна https://opendataday.ru/msk

У нас 8 выступающих в этом году, по разным темам, большая часть из которых связаны с научными исследованиями и популяризацией работы с данными для исследователей.

Я тоже буду там выступать и расскажу про поиск открытых данных с помощью Dateno

Напомню что день открытых данных проходит по всему миру между 1 и 7 марта, в России он пройдет 1 марта в онлайн формате.

А вскоре я напишу подробности про день открытых данных в Армении который пройдет оффлайн.

#opendata #opendataday #events #data
Для тех кто думает о том как AI и конкретно LLM меняют журналистику выступление [1] Katie Koschland из Financial Times в Великобритании о том как они реорганизовали работу редакции и создали внутренний инструмент подготовки статей.

Там про их внутренний инструмент Scoop который они используют для того чтобы подготавливать черновики текстов, но так чтобы они были максимально похожи на ранее написанные тексты FT.

Оптимистичное в её презентации то что без человека не обойтись, потому что этика и нюансы, но, мы то понимаем что конечно, со временем, обойтись получится если не совсем, то резко сокращая стоимость создания и поддержания редакции.

Ссылки:
[1] https://www.youtube.com/watch?v=6UkEFuLSoh4

#datajournalism #aijournalism #data #ai
Свежий полезный инструмент smallpond [1] от команды DeepSeek AI для тех кто работает с данными большого объёма и с необходимостью их распределения. Под капотом у него DuckDB и 3FS [2], другая разработка от DeepSeek AI в виде распределённой файловой системы с оптимизацией под обучение ИИ.

Ключевое - масштабируемость до петабайтных датасетов. Думаю что полезно для всех датасетов начиная с 1 ТБ и с масштабированием, а для данных объёмом поменьше уже будет избыточно.

Ссылки:
[1] https://github.com/deepseek-ai/smallpond
[2] https://github.com/deepseek-ai/3FS

#opensource #data #datatools
Я не пропустил совсем новость о том что Пр-во России анонсировало национальный проект "Экономика данных и цифровая трансформация государства" на который предполагается что потратят более 1 триллиона рублей до 2030 года [1], но долго думал как прокомментировать.

Меня в этом проекте всегда смущало слово экономика, оно как бы неявно, завуалировано, так сказать, создавало ощущение что где-то здесь, вот тут вот, совсем рядом, надо только вчитаться, но есть экономический эффект, оценка оборота данных, снижение регуляторных барьеров и так далее. Иначе говоря моделирование регуляторного и деятельностного пространства. И, конечно, введение в оборот большего числа/объёма данных находящихся в введении органов власти или напрямую ими регулируемых.

Я долго это искал в нацпроекте Цифровая экономика, но не мог найти. И сейчас не могу найти в новом нац проекте. А вот цифровая трансформация государства представлена в полной мере, здесь вопросов нет, здесь всё понятно.

И, конечно, как всегда, не могу не отметить отсутствие тематики открытых данных в официальной государственной повестке. Это не значит что их нет, это значит что их приоритет улетел куда-то, далеко улетел, но не совсем.

Но давайте я немного отвлекусь. Не все знают, а я напомню, что большая часть Bigtech'ов (Google/Amazon/Microsoft/Facebook) - это дата корпорации. Многие из них легко делятся технологиями и выкладывают их в открытый код потому что для всех из них (кроме разве что Microsoft) данные - это основной актив, важнейший актив. Большая часть из них живут по принципу DINDO (Data-in-no-data-out), по-русски это звучит как "Данные входят, данные не выходят".

Особенность российского регулирования данных и основных инициатив, на текущем этапе, в том что российское государство трансформируется в data корпорацию, в первую очередь на федеральном уровне. Медленнее чем можно было бы подумать, тяжелее чем можно было представить, но последовательнее чем можно было бы ожидать.

Это приводит всех нас в ситуацию когда, к примеру, запрос от бизнеса на государственные данные приводит к контр-вопросу "А Вы нам что?". Государство из распределителя общественного блага превращается в супер-дата-корпорацию не заинтересованную делиться данными потому что, вспоминаем, это ценный актив.

Это уникальное для мира явление и лично мне не нравится эта тенденция. В каждой новой инициативе я пытаюсь разглядеть отход от движения в эту сторону и пока не вижу.

Ссылки:
[1] https://tinyurl.com/data-economy-2025

#data #russia #regulation
Всем привет! Напоминаю, что сегодня начинается российский День открытых данных https://opendataday.ru/msk в 11:00 по Москве (UTC+3)

Я буду выступать в нём модератором и буду выступать с 11:45 с рассказом про поиск в Dateno. И здесь в канале я буду регулярно писать про выступления, анонсируя или комментируя выступающих, так что публикаций сегодня будет более чем обычно, надеюсь это не слишком утомит читателей;)

Первое выступление будет в 11:15 от Дмитрия Скугаревского на тему "Российская база бухгалтерской отчетности". Доклад очень интересный, напомню что датасет к нему доступен на Hugging Face, а из выступления Дмитрия можно будет узнать как он создавался.

Присоединяйтесь к трансляции Дня открытых данных 2025 в ВК или YouTube.

#opendataday #opendata #data #datasets #events
Полезный обзор Smallpond [1] свежего движка для обработки больших наборов/массивных потоков данных от Deepseek.

Внутри там DuckDB и автор копается во внутренностях движка объясняя как это работает.

Из интересного - да, это альтернатива Apache Spark или Daft. В общем-то DuckDB приобретает всё большую и большую популярность, встраивается внутрь самых разных инструментов.
Вот теперь ещё и в распределенные базы данных и в распределённую обработку данных.

Ссылки:
[1] https://mehdio.substack.com/p/duckdb-goes-distributed-deepseeks

#data #datatools #deepseek #dataengineering
Для тех кто в Армении в ближайшие дни, напомню что 5 и 6 марта в Армении пройдет Open Data Day, его программа доступна на сайте https://odd.opendata.am и там же можно зарегистрироваться. Это оффлайн митап где основное будет нетворкинг сообщества по открытым данным и несколько мастер-классов о том как работать с данными в примерах.

В частности, я буду 5-го рассказывать про состояние открытых данных в мире и 6-го числа проведу мастер класс по работе с культурными данными.

Напомню что ранее прошёл российский Open Data Day, полностью онлайн. Напомню что записи российского ODD доступны в ВК и YouTube.

#opendata #armenia #data #events #odd
Полезные ссылки про данные технологии и не только:
- Graph Databases after 15 Years – Where Are They Headed? [1] автор рассказывает об эволюции графовых баз данных и главный вывод что они стали очень нишевыми и в упадке, кроме очень узких применений.
- Keep Canvases Moving with DuckDB on the Server [2] count.io, сервис онлайн BI внедрили DuckDB для выполнения серверных запросов. Результаты в немедленном сокращении стоимости их выполнения.
- Polars Cloud; the distributed Cloud Architecture to run Polars anywhere [3] команда Polars запустила облачный сервис со своим продуктом, пока в режиме раннего доступа. Обещают масштабирование датафреймов и тд. Главное чтобы их открытый продукт при этом не пострадал или не оказался под какой-нибудь не совсем открытой лицензией.
- What Is a Flat File? [4] обзор текстовых форматов распространения файлов, поверхностный, но полезный для начинающих.
- Mistral OCR [5] переводчик PDF файлов в файлы Markdown от команды создателей Mistral AI. Говорят сами про себя что они лучшие в этом деле, но проверить пока не проверял.
- Aider is AI pair programming in your terminal [6] инструмент для подключения ИИ к написанию кода, умеет подключаться ко множеству моделей включая локальные. В том числе примеры по работе с данными [7]

Ссылки:
[1] https://www.youtube.com/watch?v=X_RFo616M_U
[2] https://count.co/blog/announcing-duckdb-on-the-server
[3] https://pola.rs/posts/polars-cloud-what-we-are-building/
[4] https://evidence.dev/blog/what-is-a-flat-file
[5] https://mistral.ai/news/mistral-ocr
[6] https://aider.chat/
[7] https://aider.chat/examples/census.html

#opensource #ai #data #datatools #rdbms
Общественная инициатива/сайт для отслеживания продвижения администрацией трампа инициатив из Project 2025 [1] это такая консервативная программа реформ меняющая структуру и принципы федерального пр-ва США. Там есть как очень системные, так и очень конкретные инициативы, про них можно почитать тут [2] и тут [3].

Сама инициатива по отслеживанию очень простая, нейтральная и понятная. Посмотреть на сайт стоит людям любых убеждений, лично мне для полноты счастья не хватает открытого кода и открытых данных, но есть таблица которую авторы сделали в Google Sheets [4] и там можно многое увидеть в структурированном виде.

Подробнее можно почитать в блоге автора [5]

Ссылки:
[1] https://www.project2025.observer
[2] https://www.project2025.org/
[3] https://en.wikipedia.org/wiki/Project_2025
[4] https://docs.google.com/spreadsheets/d/1QGG6wNHna-1tt91yXNkOauAJJ7snobFjfEnmxlmzhl4/edit?gid=0#gid=0
[5] https://keeptrack.substack.com/p/project-2025-tracker-is-now-live

#politics #data #trump #usa
В рубрике как это устроено у них Суверенное Технологическое Агентство Германии ( Sovereign Tech Agency) [1] специализированное агентство при The Federal Agency for Disruptive Innovation при Правительстве страны со специализацией на поддержке проектов с открытым кодом. Причём поддерживают они не просто раздачей грантовых средств, а то что можно назвать системной поддержкой сообщества.

У агентства действует четыре программы:
- Sovereign Tech Fund - фонд распределяющий грантовые программы на продукты с открытым кодом
- Sovereign Tech Resilience - целевая программа повышения надёжности открытого кода (финансирование исправления ошибок, общей инфраструктуры и тд.)
- Sovereign Tech Fellowship - на русский язык сложно правильно перевести слово fellowship, так что это программа фэллоушипа для разработчиков открытого кода когда их, по сути, берут на работу для того чтобы они 100% занимались только открытым кодом по своим проектам
- Sovereign Tech Challenge - программа целевых конкурсов для разработчиков открытого ПО

Почему это важно? Потому что кроме просто открытого кода общего назначения агентство финансировало и финансирует проекты связанные с данными. Например, curl получил поддержку в 195 тысяч евро в 2022 и 2023 года [2] потому что curl - это инструменты выгрузки данных;) Это более всего похоже на то что пара человек работала над проектом фуллтайм 2 года. А в 2025 и 2026 году агентство будет финансировать команду OpenStreetMap на сумму в 384 тысячи евро [3].

Ограничение агентства в том что они финансирует только заявки от организаций и разработчиков находящихся в Германии, зато это именно финансирование общественного блага именно в той форме которая не вызывает вопросов.

Ссылки:
[1] https://www.sovereign.tech
[2] https://www.sovereign.tech/tech/curl
[3] https://www.sovereign.tech/tech/openstreetmap

#opensource #data #germany
DuckDB выпустили UI интерфейс к базе данных [1] с открытым кодом (встроено в клиентское приложение DuckDB начиная с версии 1.2.11).

Запустить его можно командой duckdb -ui в командной строке и работать словно с тетрадками Jupyter Notebook или инструментами вроде OpenRefine.

Для тех кто сталкивается с задачами вроде Exploratory data analysis (EDA), когда вручную анализируешь данные, инструмент будет бесценен.

Сам UI сделан через расширение DuckDB компанией MotherDuck и поэтому включает авторизацию в их облачный сервис, что, впрочем, не мешает использовать его только локально.

Исходный код на C++ и JS доступен под лицензией MIT [2], при желании можно форкнуть и создать интерфейс с собственными плюшками, командной работе, авторизацией через другие сервисы и тд. А можно доработать его и сделать полноценную замену OpenRefine, к примеру.

Полезная штука по всем параметрам.

Ссылки:
[1] https://duckdb.org/2025/03/12/duckdb-ui
[2] https://github.com/duckdb/duckdb-ui

#opensource #duckdb #ui #data #datatools
SQLRooms [1] свежий инструмент с открытым кодом в жанре "BI для небогатых". Под капотом DuckDB-WASM, снаружи приложение на React. Позволяет строить разные интерактивные дашборды, с графиками и без, с AI и без. Самое главное что небольшими усилиями. Не no-code, но ближе к low-code.

У них симпатичный пример аналитики через LLM [2] и много других примеров. В живых примерах также интересно посмотреть на Flowmap City [3] и Cosmograph [4].

Для участников хакатонов будет особенно полезно, можно быстро сделать красивую визуализацию.

Открытый код и лицензия MIT.

Ссылки:
[1] https://sqlrooms.org
[2] https://sqlrooms-ai.netlify.app/
[3] https://www.flowmap.city/
[4] https://cosmograph.app/

#opensource #duckdb #data #dataviz #datatools
Невероятный по идее и реализации геопространственный проект OpenTimes [1] в виде визуализации времени поездки на машине, велосипеде или пешком с выбором стартовой точки в виде района и далее по районам отображающий в цвете. Автор Dan Snow рассказывает подробности [2] о том как он из его создал и собрал из 300 GB файлов в несколько файлов Parquet которые хостятся в итоге на Cloudflare R2 и это обходится менее чем в $15 ежемесячно [3]. У проекта открытый исходный код [4], внутри DuckDB и Parquet файлы, Python и Javascript и много первичных данных из базы TIGER переписи населения США.

Собственно финальный объём данных около 440GB [5].

Единственный недостаток - охватывает только США, потому что только по США такие первичные данные есть.

Ссылки:
[1] https://opentimes.org/
[2] https://sno.ws/opentimes/
[3] https://opentimes.org/about/
[4] https://github.com/dfsnow/opentimes
[5] https://data.opentimes.org/

#opendata #opensource #dataviz #data
Ожидаемая новость, Coalesce купили каталог данных CastorDoc [1], это был один из наиболее интересных каталогов корпоративных данных или их ещё можно называть каталогами метаданных. CastorDoc сделали сильный акцент на использовании ИИ и автоматизации документирования и контроля качества данных.

Ссылки:
[1] https://coalesce.io/company-news/coalesce-expands-data-platform-castordoc-acquisition-introduces-catalog/

#dataengineering #data #datacatalogs
Ещё одна любопытная СУБД для аналитики GreptimeDB [1] на высоких позициях в метриках JSONBench [2] и похоже что хорошо годится для сохранения логов и как JSON хранилище.
Существует в форме открытого кода, коммерческого продукта и облака. Открытый код под лицензией Apache 2.0

Не удалось найти какой движок внутри, похоже какой-то собственный.

Продукт относительно новый, менее 2-х лет, но с венчурным финансированием в 2022 и 2023 годах.

Даже странно что он не так уж популярен.

Ссылки:
[1] https://greptime.com
[2] https://jsonbench.com

#opensource #rdbms #data #datatools
В рубрике закрытых данных в РФ последнее обновление статистических сборников Минздрава РФ было за 2018 год [1] и там не то чтобы открытые данные, а просто таблицы внутри файлов MS Word (.doc), спасибо что хотя бы не PDF документы и что хотя бы там таблицы, а не просто графики.

Вся остальная статистика рассеяна по их сайту в самых разных форматах [2].


Ссылки:
[1] https://minzdrav.gov.ru/ministry/61/22/stranitsa-979/statisticheskie-i-informatsionnye-materialy/statisticheskie-materialy
[2] https://minzdrav.gov.ru/search?q=%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8

#opendata #closeddata #datasets #data