Ivan Begtin
9.3K subscribers
2.08K photos
3 videos
102 files
4.81K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Полезное чтение про данные, технологии и не только:
- Chart Smarter, Not Harder: Plotly Now Offers Universal DataFrame Support [1] о том как разработчики движка визуализации Plotly многократно ускорили визуализацию графиков используя библиотеку Narwhals поверх Polars и pyArrow. Познавательные цифры и опыт для тех кто сталкивается с медленной отрисовкой графиков.
- Siyuan [2] персональная система управления знаниями и заметками. Китайский аналог Notion и Obsidian. Открытый код под AGPL, бесплатно для личного использования. Много интеграции в китайскую экосистему вроде WeChat и тд
- Requestly [3] расширение для браузера, прокси, для перехвата запросов. Необходимо всем разработчикам работающим с API. Открытый код под AGPL и онлайн сервис за деньги. По сути конкурент Postman
- Maxun [4] ещё один no-code инструмент для скрейпинга сайтов. Облегчает жизнь тем кто не хочет кодировать то что можно не кодировать. Открытый код, AGPL
- VeilStream [5] для разнообразия не вполне обычный коммерческий сервис, прокси для PostgreSQL который принимает запросы от пользователей, а ответы отдаёт отфильтрованными от персональных данных. Меня не покидает ощущение что это несколько, ммм, извращённое решение, но тем не менее. Оно есть и, видимо, кто-то его покупает.
- 10 Ways to Work with Large Files in Python: Effortlessly Handle Gigabytes of Data! [6] статья полностью для джунов, но именно джунам её прочитать обязательно. Там есть небольшая реклама Dask и игнорирование Polars, DuckDB и тд. А если говорить серьёзно, то всё зависит от того какие у тебя большие данные, в каком они состоянии и что с ними планируется делать. К примеру, обработка десятков и сотен гигабайт бинарных данных происходит иначе.
- Python Rgonomics 2025 [7] материал о том как работать в Python тем кто учил R. Полезное чтение для тех кто живёт в двух мирах или переходит с R на Python.

Ссылки:
[1] https://plotly.com/blog/chart-smarter-not-harder-universal-dataframe-support/
[2] https://github.com/siyuan-note/siyuan
[3] https://github.com/requestly/requestly
[4] https://github.com/getmaxun/maxun
[5] https://www.veilstream.com/
[6] https://blog.devgenius.io/10-ways-to-work-with-large-files-in-python-effortlessly-handle-gigabytes-of-data-aeef19bc0429
[7] https://www.emilyriederer.com/post/py-rgo-2025/

#readings #opensource #data #datatools
Полезные ссылки про данные, технологии и не только:
- Economic Implications of Data Regulation [1] отчёт ОЭСР про последствия регулирования данных в контексте ИИ, персональных данных и глобальных платформ. В частности новый термин в словарь - data free flows with trust (DFFT).
- Trump has free rein over Dutch government data [2] один из примеров того что в ЕС всё больше журналистов, активистов и чиновников поднимают вопрос о Европейском цифровом суверенитете. Что-то напоминает, да? В основе страхов мюнхенская речь Вэнса и санкции против Международного уголовного суда
- Health Data Preservation Project [3] проект по архивации данных о здравоохранении в США. В целом там сейчас более 20 проектов архивации научных и государственных данных, многие объединяют усилия в этой области
- Language Data Commons of Australia Data Portal [4] портал данных открытых языковых ресурсов в Австралии. Существенная их часть - это аудиозаписи, но их тоже относят к данным.
- Wikipedia Recognized as a Digital Public Good [5] Википедия признана Цифровым общественным благом. Что, наверняка, неплохо для фонда Викимедия. Вся эта инициатива под эгидой одноименного альянса связанного с UNICEF и UNDP.

Ссылки:
[1] https://www.oecd.org/en/publications/economic-implications-of-data-regulation_aa285504-en.html
[2] https://ioplus.nl/en/posts/trump-has-free-rein-over-dutch-government-data
[3] https://healthjournalism.org/resources/health-data-preservation-project/
[4] https://data.ldaca.edu.au
[5] https://wikimediafoundation.org/news/2025/02/12/wikipedia-recognized-as-a-digital-public-good/

#opendata #digitalpreservation #dataregulation #readings
Для тех кто всегда интересовался как глобальные корпорации следят за пользователями, научная статья The New Digital Divide [1] от исследователей из Microsoft о том как они проанализировали данные телеметрии с 40 миллионов компьютеров под управлением Windows в США. Там много разных выводов о том как инфраструктура влияет или не влияет на цифровые навыки и про корреляции между разными показателями.

И это только по данным телеметрии установки ПО и на основе данных по частоте и продолжительности использования настольных приложений.

Ссылки:
[1] https://www.nber.org/papers/w32932

#data #privacy #readings #research #microsoft
Полезные ссылки про данные, технологии и не только:
- czkawka [1] утилита удаления дублирующихся файлов, музыки, видео и иных файлов. Полезна всем кто работает с большими личными архивами. Слово польское, произносится как чавка, переводится как икота. Называть программы телесными и душевными состояниями звучит как начало хорошего тренда, кто подхватит?
- glance [2] персональная читалка RSS и других новостей, open source и self hosted. Давно не пользовался подобным, но актуально для многих.
- coreutils [3] утилиты GNU переписанные на Rust. Просто уже массовое какое-то явление, перепиши это на Rust. Я лично не против, может быть даже они работают лучше.
- audaris.ai [4] в этот раз не открытый код, а стартап по превращению статей в подкасты. не первый раз вижу их на сайтах некоторых СМИ и сама идея мне нравится. Поддерживают всего 10 языков, так что тут есть пространство для их конкурентов. Подкидываю идею, анализировать книги с помощью AI, идентифицировать персонажи и диалоги и делать их озвучивание наиболее близкими к персонажам голосами, разными.
- Research Handbook on Open Government [5] - научное руководство по открытости гос-ва, полезная книжка, но открыта лишь частично, остальное за деньги. Про научные подходы к исследованию этой темы, важно для тех кто исследует тематику госуправления.
- Lacuna Fund [6] один из немногих фондов выдающий гранты на создание датасетов для ИИ, но... только для стран Юга. Грантовая программа за 2024 год закончена, но на сайте много датасетов, в основном африканских стран. Может быть туда можно подаваться из стран Центральной Азии и Армении? Может быть
- Fair Forward [7] германская государственная программа поддержки открытости (данных, кода, моделей для ИИ) для развивающихся стран. Они же финансируют, в том числе, Lacuna Fund

Ссылки:
[1] https://github.com/qarmin/czkawka
[2] https://github.com/glanceapp/glance
[3] https://github.com/uutils/coreutils
[4] https://www.adauris.ai/
[5] https://www.elgaronline.com/edcollbook/book/9781035301652/9781035301652.xml
[6] https://lacunafund.org
[7] https://www.bmz-digital.global/en/overview-of-initiatives/fair-forward/

#opendata #opensource #startups #ai #books #readings
Свежее полезное чтение Governing in the Age of AI: Building Britain’s National Data Library [1] от британского института Тони Блэра про то как строить Британскую Национальную Библиотеку данных.

Это особенно длинный лонгрид со многими фундаментальными вопросами, но ключевое можно выделить что де-факто это:
- платформа для академических исследований в экономике
- платформа для коммерческого R&D
- среда для подготовки решений основанных на данных (для регуляторов)

Кроме британцев там авторы из Google и статслужбы Новой Зеландии. А также активно ссылаются на эстонский опыт с X-Road.

Всё это чем-то похоже на Data Spaces в Евросоюзе, но они вводят новый термин Data Biomes как развитие идеи экосистемы работы с данными. При этом на инициативы ЕС вообще нигде не ссылаются, придумывают собственный фундамент.

Я этот документ ещё буду перечитывать чтобы разобрать его подробнее. В любом случае он будет полезен всем кто думает о том как это устроено у них, там много отсылок на существующие дата платформы Великобритании.

Ссылки:
[1] https://institute.global/insights/tech-and-digitalisation/governing-in-the-age-of-ai-building-britains-national-data-library

#opendata #policies #uk #regulation #readings
Полезные ссылки про данные, технологии и не только:
- Towards Inserting One Billion Rows in SQLite Under A Minute [1] заметка 2021 года о том как высокопроизводительно загружать миллиарды строк а базы SQLite. Актуально для всех кто делает высокопроизводительные системы не имея больших бюджетов.
- GROBID [2] переводится как GeneRation Of BIbliographic Data, инструментарий с открытым кодом по извлечению структурированного содержания из PDF файлов, особенно применяется к научным статьям. Активно используется для извлечения библиографических данных.
- Depsy [3] онлайн база цитирования пакетов с открытым кодом в научных статьях. От той же команды что делает OpenAlex. Этот проект более не развивается уже лет 7, а жаль, но исходный код доступен как и API.
- Cadent Open Data [4] раздел с открытыми данных в Cadent, британской газовой компании. Открытые данные прописаны в стратегии цифровизации и отдельный портал с данными [5] которые раскрываются по регуляторным требованиям и инициативами по data sharing
- Schneider Electric Datasets [6] коллекция наборов данных на портале для разработчиков Schneider Electric. В основном данные по энергопотреблению. Бесплатные, но требуют регистрации

Ссылки:
[1] https://avi.im/blag/2021/fast-sqlite-inserts/
[2] https://grobid.readthedocs.io/en/latest/
[3] http://depsy.org
[4] https://cadentgas.com/reports/open-data
[5] https://cadentgas.opendatasoft.com/pages/welcome/
[6] https://exchange.se.com/develop/developer-resources?source=developerResources&developerResources=Datasets

#opendata #opensource #readings
В продолжение влияния тарифов на технологические компании, полезная заметка Trade, Tariffs, and Tech [1] от Бена Томпсона. Там много интересных рассуждений о параллелях между текущей ситуацией и Никсоновским шоком [2] в виде приостановки Бреттон-Вудских соглашений. Но это макроэкономика и это интересно, но, важнее практический исход.

Собственно из технологических компаний, похоже, более всего может пострадать Apple из-за высокой зависимости от производство в Китае и, в принципе, за пределами США, но безболезненный перенос его в США маловероятен. Далее он пишет про высокую вероятность снижения доходов всех рекламных BigTech'ов поскольку меньше дешёвых товаров=меньше массовых рекламных контрактов и, наконец, с меньшей вероятностью это затронет Microsoft с их бизнесом по продаже софта кроме разве что увеличения стоимости строительства дата центров.

Ссылки:
[1] https://stratechery.com/2025/trade-tariffs-and-tech/
[2] https://ru.wikipedia.org/wiki/%D0%9D%D0%B8%D0%BA%D1%81%D0%BE%D0%BD%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B9_%D1%88%D0%BE%D0%BA

#tech #tariffs #readings
Полезные ссылки про данные, технологии и не только:
- vanna [1] движок с открытым кодом по генерации SQL запросов к СУБД на основе промптов. Относится к классу продуктов text-to-sql. Поддерживает много видом LLM и много баз данных. Выглядит многообещающие и его есть куда применить. Лицензия MIT.
- Boring Data [2] готовые шаблоны для Terraform для развёртывания своего стека данных. А я даже не думал что это может быть чем-то большим чем консультации, а оказывается тут просто таки автоматизированный сервис с немалым ценником.
- Understanding beneficial ownership data use [3] отчет о том как используются данные о бенефициарных собственниках компании, от Open Ownership. Пример того как делать исследования аудитории по большим общедоступным значимым базам данных / наборам данных.
- Дашборд по качеству данных в opendata.swiss [4] а ещё точнее по качеству метаданных, этим многие озадачены кто создавал большие каталоги данных.
- Open Data in D: Perfekte Idee, halbherzige Umsetzung? Ein Erfahrungsbericht. [5] выступление с рассказом о состоянии доступа к геоданным в Германии с конференции FOSSIG Munster. Всё на немецком, но всё понятно😜 там же презентации. TLDR: все геоданные в Германии доступны, но не во всех территориях одинаково. Можно только позавидовать
- Legal frictions for data openness [6] инсайты из 41 юридического случая проблем с использованием открытых данных для обучения ИИ.

Ссылки:
[1] https://github.com/vanna-ai/vanna
[2] https://www.boringdata.io/
[3] https://www.openownership.org/en/publications/understanding-beneficial-ownership-data-use/
[4] https://dashboard.opendata.swiss/fr/
[5] https://pretalx.com/fossgis2025/talk/XBXSVJ/
[6] https://ok.hypotheses.org/files/2025/03/Legal-frictions-for-data-openness-open-web-and-AI-RC-2025-final.pdf

#opendata #data #dataengineering #readings #ai #dataquality #geodata