Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.71K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Полезное чтение про данные, технологии и не только:
- TPC-H SF300 on a Raspberry Pi [1] бенчмарк TPC-H SF300 для DuckDB на Raspberri Pi с 16 GB RAM и 1TB SSD. TPC-H тест на двух базах в 26GB и 78GB. Самое главное, все стоимость всего всего этого железа $281.
- BuzzHouse: Bridging the database fuzzing gap for testing ClickHouse [2] в блоге ClickHouse об автоматизации тестирования запросов к ClickHouse. Автор создал и оформил 100+ issues выявленных таким автоматическим тестированием.
- Öppna data-portalen [3] портал открытых данных Шведского национального совета по культурному наследию. Все они геоданные в открытых форматах для возможности нанесения на карту.
- Pilot NIH Science of Science Scholars Program [4] национальный институт здравоохранения США запустил программу для исследователей по работе с их внутренними данными. Это те данные которые не могут быть открыты, но доступны с соблюдением требований безопасности, приватности, с оборудования предоставленного государством и тд. Ограничений немало, но и данные из тех что относят к особо чувствительным.
- LINDAS [5] официальный государственный портал связанных данных (Linked Data) Швейцарии. Создан и поддерживается Швейцарскими Федеральными Архивами. Включает 133 набора данных/базы данных
- Visualize Swiss Open Government Data [6] Швейцарская государственная платформа для визуализации данных. Да, по сути это как если бы к Datawrapper прикрутили каталог данных и придали бы всему государственный статус. Наборов данных там около 200 и, самое главное, всё с открытым кодом [6]

Ссылки:
[1] https://duckdb.org/2025/01/17/raspberryi-pi-tpch.html
[2] https://clickhouse.com/blog/buzzhouse-bridging-the-database-fuzzing-gap-for-testing-clickhouse
[3] https://www.raa.se/hitta-information/oppna-data/oppna-data-portal/
[4] https://dpcpsi.nih.gov/oepr/pilot-nih-science-science-scholars-program
[5] https://lindas.admin.ch/
[6] https://github.com/visualize-admin

#opendata #opensource #data #rdmbs #datatools
Свежий документ Data Governance in Open Source AI [1] от Open Source Initiative про то как публиковать данные для обучения ИИ с открытым кодом. В документе много всего, важно что они промоутируют отход от чистого определения Open Data и говорят о новом (старом) подходе Data Commons с разными моделями доступа к данным.

Дословно в тексте упоминаются, привожу как есть:
- Open data: data that is freely accessible, usable and shareable without restrictions, typically
under an open license or in the Public Domain36 (for example, OpenStreetMap
data);
Public
data: data that is accessible to anyone without authentication or special permissions
(for example, Common Crawl
data). Note that this data can degrade as web content
becomes unavailable;
Obtainable
data: data that can be obtained or acquired through specific actions, such as
licensing deals, subscriptions or permissions (for example, ImageNet
data);
Unshareable non-public
data: data that is confidential or protected by privacy laws,
agreements or proprietary rights and cannot be legally shared or publicly distributed.


С точки зрения многих в открытых данных всё это звучит как размывание открытости, но с точки зрения практики ИИ в этом есть логика.

Ссылки:
[1] https://opensource.org/blog/reimagining-data-for-open-source-ai-a-call-to-action

#opendata #data #readings
Полезное чтение про данные, технологии и не только:
- Chart Smarter, Not Harder: Plotly Now Offers Universal DataFrame Support [1] о том как разработчики движка визуализации Plotly многократно ускорили визуализацию графиков используя библиотеку Narwhals поверх Polars и pyArrow. Познавательные цифры и опыт для тех кто сталкивается с медленной отрисовкой графиков.
- Siyuan [2] персональная система управления знаниями и заметками. Китайский аналог Notion и Obsidian. Открытый код под AGPL, бесплатно для личного использования. Много интеграции в китайскую экосистему вроде WeChat и тд
- Requestly [3] расширение для браузера, прокси, для перехвата запросов. Необходимо всем разработчикам работающим с API. Открытый код под AGPL и онлайн сервис за деньги. По сути конкурент Postman
- Maxun [4] ещё один no-code инструмент для скрейпинга сайтов. Облегчает жизнь тем кто не хочет кодировать то что можно не кодировать. Открытый код, AGPL
- VeilStream [5] для разнообразия не вполне обычный коммерческий сервис, прокси для PostgreSQL который принимает запросы от пользователей, а ответы отдаёт отфильтрованными от персональных данных. Меня не покидает ощущение что это несколько, ммм, извращённое решение, но тем не менее. Оно есть и, видимо, кто-то его покупает.
- 10 Ways to Work with Large Files in Python: Effortlessly Handle Gigabytes of Data! [6] статья полностью для джунов, но именно джунам её прочитать обязательно. Там есть небольшая реклама Dask и игнорирование Polars, DuckDB и тд. А если говорить серьёзно, то всё зависит от того какие у тебя большие данные, в каком они состоянии и что с ними планируется делать. К примеру, обработка десятков и сотен гигабайт бинарных данных происходит иначе.
- Python Rgonomics 2025 [7] материал о том как работать в Python тем кто учил R. Полезное чтение для тех кто живёт в двух мирах или переходит с R на Python.

Ссылки:
[1] https://plotly.com/blog/chart-smarter-not-harder-universal-dataframe-support/
[2] https://github.com/siyuan-note/siyuan
[3] https://github.com/requestly/requestly
[4] https://github.com/getmaxun/maxun
[5] https://www.veilstream.com/
[6] https://blog.devgenius.io/10-ways-to-work-with-large-files-in-python-effortlessly-handle-gigabytes-of-data-aeef19bc0429
[7] https://www.emilyriederer.com/post/py-rgo-2025/

#readings #opensource #data #datatools
Я совсем недавно несколько раз писал лонгриды в рассылке о том как работать со статистическими данными и как их публикуют:
- Статистика как дата продукт
- Хорошие и плохие практики публикации данных. Метаданные и форматы файлов
- Российская статистика: немашиночитаемая институциональная фрагментация
А также много постов у меня тут в канале по хештегу #statistics

Однако я понял что у меня практически нет компактного тезисного текста о том что происходит со статистикой в мире и как она меняется, хотя бы в части работы с потребителями.

1. Основные направления развития статистических продуктов это:
- создание дашбордов по аналогии с корпоративными дашбордами (Dashboard Deutschland)
- создание инструментов самостоятельного построения визуализаций пользователями (visualize.admin.ch)
- превращение портала статслужбы в портал данных (ons.gov.uk)
- предоставление данных для массовой выгрузки (ECB Data Portal)
- использование форматов данных из data science таких как parquet (OpenDOSM)
- продвижение и развитие SDMX форматов и API (BIS Data Portal)
- предоставление статистики в режиме API-first (SingStat TableBuilder и многие другие)
- развитие публикации высокочастотных показателей вплоть до суток (порталы статистики центральных банков, BIS Data Portal)
- развитие экспериментальной статистики (Eurostat, IStat, Statistics Iceland)

2. Большая часть статистических порталов в мире индивидуальны. Из известного тиражируемого ПО можно выделить только:
- PxWeb - продукт разработанный статслужбой Швеции, активно используемый всеми скандинавскими странами и рядом других стран.
- .Stat Suite - теперь с открытым кодом. Используется статслужбой Австралии, ОЭСР и рядом стран.
- Fusion Metadata Registry - изначально разработан командой Банка международных расчётов, сейчас отдан на коммерциализацию. Является ядром для большей части публичных порталов данных отдающих статистику с SDMX совместимым API. Например, SDMX Registry Евростата

3. Всё большее число статистических ведомств создают и публикуют дата стратегии. Эти стратегии охватывают такие вопросы как:
- принципы работы с данными
- приоритеты
- стандарты и форматы обмена и публикации данными
- политики работы с данными
- источники получения данных

Примеры:
- ONS Data Strategy - стратегия работы с данными статслужбы Великобритании
- ABS Data Strategy 2021-22 to 2025 - стратегия работы с данными статслужбы Австралии
- Statistics Canada Data Strategy - дата-стратегия статслужбы Канады

4. В некоторых странах статслужбы отвечают за национальные порталы открытых данных:
- Новая Зеландия - глава статслужбы занимает позицию Government Chief Data Steward (GCDS) и определяет принципы развития и дорожную карту нац портала данных data.govt.nz
- Малайзия - национальный портал открытых данных data.gov.my переделан в портал статистики и дашбордов на основе портала статпоказателей open.dosm.gov.my статистического офиса страны.

5. Все коммерческие поставщики данных временных рядов активно игнорируют международные стандарты вроде SDMX и фокусируются, в первую очередь, на предоставлении данных через API (Nasdaq Data Link).

6. Всё что касается экспериментальной статистики - это то что в коммерческом секторе называется альтернативными данными. Их поставщиков много, они фокусируются на предоставлении их в тех форматах которые наиболее удобны потребителям. Чаще всего это API, датасеты или базы данных в облачных сервисах.

#opendata #statistics #sdmx #data #dataengineering
Тренды, тренды и снова тренды. Я про какие-то из них писал в конце декабря и начале января, а какие-то пропустил, много разговоров которые слышу прямо или косвенно:

- Common Digital Infrastructure. Одна из актуальных тем для общественных, исследовательских, некоммерческих и культурных проектов в том что все они зависят от инфраструктуры Big Tech'ов, что немало многих напрягает. В мире сейчас нет проектов по современной инфраструктуре для хранения того что называется digital common goods. Если, к примеру, Вы хотите сделать большой и интересный набор данных или бесплатный открытый инструмент, то надо для этого, или покупать инфраструктуру в одном из очень крупных облаков, или клянчить инфраструктурные ресурсы в рамках программ Big Tech (есть, как минимум, у Amazon) или дороже делать своими силами.

- Демократизация аналитики на данных большого объёма. Новые/старые инструменты Clickhouse, DuckDB, Polars и data lakes разного типа и другие позволяют снизить объёмы хранимых данных, значительно упростить работу с данными большого объёма для тех кто раньше с ними работать не мог. Это такая маленькая-большая революция в работе с данными которая будет всё более превращаться в мэйнстрим по мере появления интерактивных инструментов. Это относится и к языковым моделям которые всё более успешно запускаются на устройствах весьма недорогих и компактных. Я об этом пишу регулярно тут.

#trends #data
Давно хотел нарисовать диаграмму понятным языком объясняющую как выбирать лицензию для публикуемых датасетов. Вернее, вначале хотел написать текстом разные сценарии, а потом понял что визуально то понятнее.

Так что вот Вам готовая схема для принятия решений убрал только усложняющие пункты типа "Надо всё согласовывать с юристами?" или "Не хотите ни за что отвечать?". Ну да их в какой-нибудь следующей версии

Всё сделано с помощью Mermaid диаграмм декларативным описанием.

#licenses #data #diagrams
Для тех кто всегда интересовался как глобальные корпорации следят за пользователями, научная статья The New Digital Divide [1] от исследователей из Microsoft о том как они проанализировали данные телеметрии с 40 миллионов компьютеров под управлением Windows в США. Там много разных выводов о том как инфраструктура влияет или не влияет на цифровые навыки и про корреляции между разными показателями.

И это только по данным телеметрии установки ПО и на основе данных по частоте и продолжительности использования настольных приложений.

Ссылки:
[1] https://www.nber.org/papers/w32932

#data #privacy #readings #research #microsoft
Для тех кто изучает данные по криптовалютам и Web3 мы запустили новый каталог открытых данных Crypto Data Hub [1] где можно найти много разных данных по криптовалютам из самых разных источников. Основным источником являются данные сервиса Blockchair [2] которые мы перегруппировали в виде помесячных датасетов, но кроме них есть и другие датасеты и общее их число будет постепенно расти.

Также портал проиндексирован в Dateno благодаря чему в Dateno теперь можно найти данные по криптовалютам [3].

CryptoData Hub это некоммерческий проект созданный от лица НКО Open Data Armenia (@opendataam), мы продолжим наполнять его интересными датасетами. Если Вы знаете интересные криптоданные, можете поделиться ими или знаете где их взять, напишите мне в личку или на [email protected] и мы будем только рады их добавить в этот каталог.

P.S. Мы специально сделали именно отдельный каталог данных поскольку тема криптовалют большая, потребности исследователей в данных растут, а доступных данных не так много, вернее много, но коммерческих.

Ссылки:
[1] https://cryptodata.center
[2] https://blockchair.com/dumps
[3] https://dateno.io/search?query=Zcash

#opendata #datasets #opendataam #cryptocurrency #data #datacatalogs
В рубрике интересных и малоизвестных наборов данных Multinational Enterprise Information Platform (MEIP) [1] база данных по международным или, как ещё говорят, транснациональным корпорациям. Создана в рамках совместной инициативы OECD и UNSD решением 2015 г. на 46 сессии UNSD [2] в целях повышения понимания и измеримости статистики международной торговли и глобализации.

В открытом доступе находится два датасета: Global Register и Digital Register

Global Register - база дочерних предприятий 500 крупнейших MNP, общим объёмом в 128 тысяч организаций (в версии на конец декабря 2023 г. [3], включая данные о местонахождении, адресах, уникальных идентификаторах LEI и PermID и других метаданных.

Digital Register - база сайтов дочерних предприятий и их pageRank и посещаемости. На конец декабря 2023 г. это около 122 тысяч сайтов [4].

Для тех кто изучает устройство международной торговли датасеты могут быть интересны.

Из минусов - все данные в Excel, обновляются только раз в год.

Ссылки:
[1] https://www.oecd.org/en/data/dashboards/oecd-unsd-multinational-enterprise-information-platform.html
[2] https://unstats.un.org/unsd/statcom/46th-session/documents/statcom-2015-46th-report-E.pdf#page=21
[3] https://www.oecd.org/content/dam/oecd/en/data/dashboards/oecd-unsd-multinational-enterprise-information-platform/Global-Register_2023.xlsx
[4] https://www.oecd.org/content/dam/oecd/en/data/dashboards/oecd-unsd-multinational-enterprise-information-platform/Global-Register_2023.xlsx

#opendata #dataset #data
Полезные ссылки про данные, технологии и не только:
- Kreuzberg [1] библиотека для Python по извлечению текста из документов, поддерживает множество форматов, внутри использует Pandoc и Tesseract OCR. Создано как раз для использования в задачах RAG (Retrieval Augmented Generation) с прицелом на локальную обработку данных и минимумом зависимостей. Лицензия MIT
- Validoopsie [2] другая библиотека для Python для валидации данных. Использует библиотеку Narwhals благодаря которой подключается к почти любым видами дата-фреймов. Выглядит полезной альтернативой Great Expectations, лично для меня в валидации данных глобальный нерешённый вопрос в том что тут правильнее, код или декларативное программирования. Иначе говоря, правила проверки должны ли быть отчуждаемыми от языка разработки. Здесь валидация встроена в код, но поверх можно сделать и декларативный движок. Лицензия MIT
- Scripton [3] коммерческое IDE для Python с необычной фичей визуализации данных в реальном времени. Есть только скриншоты, записи экрана и коммерческая версия для macOS. Для тех кто занимается алгоритмической визуализацией может быть удобно, для остальных задач пока нет такой уверенности.
- New horizons for Julia [4] по сути статья о том что язык программирования Julia ещё жив и развивается. Правда медленно, на мой взгляд, но вроде как есть позитивное движение за пределами научных областей. Лично я почти не сталкивался с Julia кроме как на уровне примеров кода, но хорошо если он кому-то нравится и полезен.
- Data-Driven Scrollytelling with Quarto [5] визуализация дата-историй с помощью движка Quarto, итоги конкурса таких визуализаций с большим числом примеров и победителей. Примеры все от команды компании Posit которая этот open-source движок Quarto и разрабатывает. Скажу отдельно что это очень правильно. Если ты делаешь любой движок по визуализации, то просто обязательно надо проводить такие конкурсы.
- The Best Way to Use Text Embeddings Portably is With Parquet and Polars [6] ещё один обзор о том насколько эффективен Parquet в связке с Polars для работы с данными, в данном случае данными карт Magic of the Gathering. Автор тоже задаётся вопросом о том почему Parquet не поддерживается в MS Excel.
- How to Make Superbabies [7] особенно длинный лонгрид о том как генетическими изменениями можно улучшать человека, создавать супер детей или "оптимизированных детей", как ещё пишет автор. Читать и думать об этом надо потому что всё идёт к тому что скоро это станет ещё одной острой социальной и геополитической темой.

Ссылки:
[1] https://github.com/Goldziher/kreuzberg
[2] https://github.com/akmalsoliev/Validoopsie
[3] https://scripton.dev/
[4] https://lwn.net/Articles/1006117/
[5] https://posit.co/blog/closeread-prize-winners/
[6] https://minimaxir.com/2025/02/embeddings-parquet/
[7] https://www.lesswrong.com/posts/DfrSZaf3JC8vJdbZL/how-to-make-superbabies

#opensource #data #datatools #dataviz #genetics #python
В рубрике российской специфики публикации открытых данных я уже немало ранее писал о том что российские практики публикации открытых данных весьма специфичны (с) и значительно отличаются от лучших мировых практик. Например, при публикации датасетов практически не используется спецификация по стандарту schema.org, не используется типовое ПО для публикации датасетов, не используются стандарты такие как DCAT, бывает что и датасеты доступны только после авторизации на Госуслугах.
А вот ещё одна необычная практика, датасеты системы Государственного водного реестра публикуются в виде ZIP файла с цифровой подписью [1]. Я такого ранее не встречал, впервые вижу подобную практику и, честно говоря, не то чтобы осуждаю, но считаю довольно бессмысленной.

Да и сами данные публикуются в этой системе без страниц карточек датасетов, в результате невозможно сослаться на конкретный набор данных, только на страницу всех наборов.

Что тут скажешь, хорошо что хоть что-то публикуют и обновляют данные. Даже если и не особенно любят людей.

Ссылки:
[1] https://gis.favr.ru/web/guest/opendata

#opendata #russia #water #data
Напоминаю что день открытых данных в России пройдёт 1 марта, в эту субботу, совсем скоро и что его программа уже доступна https://opendataday.ru/msk

У нас 8 выступающих в этом году, по разным темам, большая часть из которых связаны с научными исследованиями и популяризацией работы с данными для исследователей.

Я тоже буду там выступать и расскажу про поиск открытых данных с помощью Dateno

Напомню что день открытых данных проходит по всему миру между 1 и 7 марта, в России он пройдет 1 марта в онлайн формате.

А вскоре я напишу подробности про день открытых данных в Армении который пройдет оффлайн.

#opendata #opendataday #events #data
Для тех кто думает о том как AI и конкретно LLM меняют журналистику выступление [1] Katie Koschland из Financial Times в Великобритании о том как они реорганизовали работу редакции и создали внутренний инструмент подготовки статей.

Там про их внутренний инструмент Scoop который они используют для того чтобы подготавливать черновики текстов, но так чтобы они были максимально похожи на ранее написанные тексты FT.

Оптимистичное в её презентации то что без человека не обойтись, потому что этика и нюансы, но, мы то понимаем что конечно, со временем, обойтись получится если не совсем, то резко сокращая стоимость создания и поддержания редакции.

Ссылки:
[1] https://www.youtube.com/watch?v=6UkEFuLSoh4

#datajournalism #aijournalism #data #ai
Свежий полезный инструмент smallpond [1] от команды DeepSeek AI для тех кто работает с данными большого объёма и с необходимостью их распределения. Под капотом у него DuckDB и 3FS [2], другая разработка от DeepSeek AI в виде распределённой файловой системы с оптимизацией под обучение ИИ.

Ключевое - масштабируемость до петабайтных датасетов. Думаю что полезно для всех датасетов начиная с 1 ТБ и с масштабированием, а для данных объёмом поменьше уже будет избыточно.

Ссылки:
[1] https://github.com/deepseek-ai/smallpond
[2] https://github.com/deepseek-ai/3FS

#opensource #data #datatools
Я не пропустил совсем новость о том что Пр-во России анонсировало национальный проект "Экономика данных и цифровая трансформация государства" на который предполагается что потратят более 1 триллиона рублей до 2030 года [1], но долго думал как прокомментировать.

Меня в этом проекте всегда смущало слово экономика, оно как бы неявно, завуалировано, так сказать, создавало ощущение что где-то здесь, вот тут вот, совсем рядом, надо только вчитаться, но есть экономический эффект, оценка оборота данных, снижение регуляторных барьеров и так далее. Иначе говоря моделирование регуляторного и деятельностного пространства. И, конечно, введение в оборот большего числа/объёма данных находящихся в введении органов власти или напрямую ими регулируемых.

Я долго это искал в нацпроекте Цифровая экономика, но не мог найти. И сейчас не могу найти в новом нац проекте. А вот цифровая трансформация государства представлена в полной мере, здесь вопросов нет, здесь всё понятно.

И, конечно, как всегда, не могу не отметить отсутствие тематики открытых данных в официальной государственной повестке. Это не значит что их нет, это значит что их приоритет улетел куда-то, далеко улетел, но не совсем.

Но давайте я немного отвлекусь. Не все знают, а я напомню, что большая часть Bigtech'ов (Google/Amazon/Microsoft/Facebook) - это дата корпорации. Многие из них легко делятся технологиями и выкладывают их в открытый код потому что для всех из них (кроме разве что Microsoft) данные - это основной актив, важнейший актив. Большая часть из них живут по принципу DINDO (Data-in-no-data-out), по-русски это звучит как "Данные входят, данные не выходят".

Особенность российского регулирования данных и основных инициатив, на текущем этапе, в том что российское государство трансформируется в data корпорацию, в первую очередь на федеральном уровне. Медленнее чем можно было бы подумать, тяжелее чем можно было представить, но последовательнее чем можно было бы ожидать.

Это приводит всех нас в ситуацию когда, к примеру, запрос от бизнеса на государственные данные приводит к контр-вопросу "А Вы нам что?". Государство из распределителя общественного блага превращается в супер-дата-корпорацию не заинтересованную делиться данными потому что, вспоминаем, это ценный актив.

Это уникальное для мира явление и лично мне не нравится эта тенденция. В каждой новой инициативе я пытаюсь разглядеть отход от движения в эту сторону и пока не вижу.

Ссылки:
[1] https://tinyurl.com/data-economy-2025

#data #russia #regulation