Ivan Begtin
9.36K subscribers
2.3K photos
4 videos
109 files
4.99K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
加入频道
DuckLake (утиное озеро) [1] новый продукт от команды DuckDB по созданию озер данных с помощью DuckDB. Очень похоже по идеологии на Apache Iceberg и Delta Lake, но с хранением метаданных в SQL, а данных в Parquet файлах.

Тот случай когда выглядит интересно и надо приглядеться к работе на практике. Лично я чаще сталкиваюсь с редко обновляемыми данными большого объёма где транзакции сильно вторичны к скорости доступа к данным. Возможно DuckLake было бы лучшим решением для такого. А может быть и нет. Надо изучать и посмотреть на примеры внедрения.

Ссылки:
[1] https://duckdb.org/2025/05/27/ducklake

#data #opensource #datatools #duckdb
52
Полезное чтение про данные, технологии и не только:
- Behind the Curtain: A white-collar bloodbath заметка в Axios по итогам выступления Dario Amodei, главы Anthropic о кризисе работы для белых воротничков в самое ближайшее время и о том что правительствам (США) надо собирать "налог на токены". Тут есть о чём подискутировать, начиная с того что кроме правительств США и Китая никто более налогов с этого не наберёт.
- Measuring the US-China AI Gap свежее исследование с анализом разрыва в области ИИ между США и Китаем от Insikt Group. Сжатое изложение полезного материала.
- Introducing Apache Spark 4.0 вышла 4-я версия Apache Spark где много нового в его Python API включая нового легковесного API клиента да и много других полезных изменений.
- Meet the dbt Fusion Engine: the new Rust-based, industrial-grade engine for dbt важное для всех кто пользуется dbt, после покупки sdf команда dbt Labs выпустила новый движок на базе Rust и обещают что он лучше, быстрее, эффективнее и тд.
- ClickStack: A High-Performance OSS Observability Stack on ClickHouse я так понимаю что Clickhouse выбрали одним из направлений конкуренцию со стеком Elastic / OpenSearch для сбора логов и наблюдаемости (observability) и ClickStack именно такое решение с открытым кодом.
- Perplexity Labs свежий сервис от Perplexity который ориентированный на воплощение идей в реальность выполнение задач по созданию продуктов с начала и до завершения. Не они первые, не они последние, инструмент полезный, один из тех что дожирают рынок фриланса
- Opening code, opening access: The World Bank’s first open source software release первый релиз открытого кода от команды Всемирного банка, они разместили код Metadata Editor инструмента описания документов, индикаторов, геоданных и иных объектов. С акцентом на статистику, конечно же. Полезно изучить тем создает и работает с официальной статистикой.

#ai #statistics #opensource #data #datatools
73
В рубрике как это устроено у них французский проект по мониторингу всего кода созданного органами власти Франции, государственными научными учреждениями и в рамках госфинансирования (гранты) из французского бюджета data.code.gouv.fr [1].

Охватывает 82 источника, более 32 тысяч репозиториев, более 3 тысяч владельцев репозиториев

Построен на базе открытого кода ecosyste.ms проекта по мониторингу пакетов и репозиториев открытого кода.

Позволяет оценить масштабы государственного открытого кода во Франции и, при желании, выявить наиболее живые и востребованные проекты


Ссылки:
[1] https://data.code.gouv.fr/
[2] https://ecosyste.ms/

#opensource #france #opendata #sourcecode
🔥71
Стремительно набирающий популярность продукт MindsDB [1] который позиционируется как Data Driven AI Agents и позволяет подключать любую базу данных и получать ответы на её основе. В том числе он предоставляет MCP сервер к которому можно подключить языковую модель.

Главный минус в том что лицензия а ля Elastic [2], но для большей части проектов это не критично.

Одновременно команда предоставляет корпоративный вариант продукта, уже с петабайтным масштабированием и коммерческим применением.

Но вообще сама идея что вот тебе данные и пусть над ними будет AI интерфейс в виде чата - это ещё один гроб в рынок не автоматизированных BI систем

Ссылки:
[1] https://mindsdb.com
[2] https://github.com/mindsdb/mindsdb

#opensource #ai #data
🤔4😐2
В рубрике полезных ссылок про данные, технологии и не только:
- DTAI Sports Analytics Lab лаборатория в бельгийском университете KU Leuven посвящённая спортивной аналитике и футболу в частности. Несколько инструментов и много публикаций о предсказании результатов футбольных матчей с помощью машинного обучения
- Kicking the Tires on CedarDB's SQL обзор CedarDB, это такая инновационная база данных создаваемая в TUM и совместимая с Postgres. О ней полезно читать для понимания как разработка современных реляционных баз ведётся и сложности в оптимизации запросов
- Gravitino новый геораспределенный каталог метаданных с открытым кодом, заявлено много чего, но надо смотреть подробнее. Это не из тех каталогов которые создаются для документирования и комплаенс с контролем перс данных, а из тех каталогов которые позволяют централизовано управлять озерами и хранилищами, например, на Iceberg.
- quarkdown синтаксис и инструмент на базе Markdown для подготовки книг/статей/больших текстов. По сути под замену Latex и с ним же его и сравнивают. Наиболее близкая альтернатива ему это Typst созданный с теми же целями
- DataHub Secures $35 Million Series B о том что DataHub, создатели одноимённого каталога метаданных, подняли $35m инвестиций на применение ИИ для управления метаданными. Учитывая что DataHub сильно просел по разработке в сравнении с OpenMetadata - это скорее хорошая новость.

#opensource #analytics
62
Как в мире публикуют геоданные? Крупнейший коммерческий игрок - это компания ArcGIS с их облачными и корпоративными продуктами. В России все активно импортозамещаются на NextGIS, есть и другие коммерческие ГИС продукты и онлайн сервисы.

Однако в мире открытого кода наиболее популярные гео каталога данных - это Geonetwork, GeoNode и, с некоторым допущением, GeoServer.

Geonetwork - это OGC совместимый каталог георесурсов, включая файлы, внешние ссылки. Его активно применяют в Латинской Америке и Евросоюзе, например, EEA geospatial data catalogue, также Geonetwork хорошо расширяется метаданными и используется в Европейской инициативе INSPIRE по публикации системно значимых геоданных странами участниками ЕС. Geonetwork правильнее всего рассматривать как поисковик и агрегатор. В реестре каталогов данных Dateno 568 инсталляций Geonetwork

GeoNode - это продукт наиболее приближенный именно к каталогу данных. Его используют для публикации данных вручную и он поддерживает множество стандартов доступа к данным, включая DCAT для порталов открытых данных. Например, его использует Правительство Казахстана как Геопортал НИПД. В реестре каталогов Dateno 295 записей о каталогах данных на базе Geonode.

И, наконец, Geoserver - это один из наиболее популярных open source геопродуктов, используется повсеместно для публикации слоёв карт и других данных как OGC сервисов. В реестре Dateno 1111 таких серверов. Главный недостаток - это отсутствие/неполнота метаданных, которые чаще описываются в надстройке поверх данных внутри Geoserver.

В России всего 22 инсталляции на базе этих продуктов, большая часть из них недоступна с IP адресов не из российских подсетей. Для сравнения, в странах ЕС их более 600, не считая других геопорталов.


#opendat #datacatalogs #opensource #data #geodata #geonetwork #geonode #geoserver
👍431
В рубрике интересных стартапов про данные и аналитику Pandas AI [1] открытый, но не свободный (!) продукт по подключению ИИ к анализу датафреймов в Pandas. К конкретному датафрейму можно формулировать вопросы/запросы и получать структурированные и визуальные ответы.

Идея интересная, поддерживает стартап Y-Combinator, но лично я его рекомендовать к использованию не буду и вот почему:
1. Это не local-first продукт, для работы обязательно регистрироваться в их облачном сервисе и получать ключ.
2. Много вопросов с защитой данных. Они проходят двух провайдеров - собственно Pandas AI и выбранной облачной LLM. Причём с облачной LLM как прямых никаких отношений нет, при утечке данных повлиять на это сложно.

В остальном идея, безусловно, неплохая, но в облаке только как часть решения. Условно если у меня всё в Azure, GCS или в AWS то не проблема подключить API для ИИ передавать данные, они и так там. А какой-то левый внешний сервис непроверенный провайдер - это никуда не годится.

Ссылки:
[1] https://github.com/sinaptik-ai/pandas-ai

#opensource #ai #pandas #dataanalytics
🔥43
В рубрике как это устроено у них и на сей раз не про данные а про государственного вестоношу в Германии Bundes Messenger [1] это специальное приложение для устройств Apple и Android разработанное по заказу европейским подрядчиком T-Systems по заказу BWI GmbH (агентству цифры и инноваций при Минобороны Германии).

В чем его особенности:
1. Он предназначен только для госслужащих и у него сейчас относительно немного пользователей, 5+ тысяч для приложения на Android
2. Приложение полностью с открытым кодом [2] опубликованным в рамках инициативы OpenCoDE
3. Основан на открытом протоколе обмена Matrix [3] с серверами находящими под управлением BWI.
4. Изначально выросло из приложения BwMessenger созданное для германской армии и имеющее более 100 тысяч пользователей.
5. Это просто система сообщений без чего-либо про юридическую значимость, госуслуги или обмен документами.
6. Нигде нет явно выраженных планов распространять его или что-то на его основе как систему обмена сообщений для самих граждан.

Ссылки:
[1] https://messenger.bwi.de/bundesmessenger
[2] https://gitlab.opencode.de/bwi/bundesmessenger/info
[3] https://matrix.org/

#opensource #germany #messenger
4👍42
Смотря на современные приложения, неважно, с открытым кодом или закрытым, я всё более прихожу к их классификации по типам интеграции с облаками и работе без интернета.

И эта классификация выглядит вот так:
- cloud-only - приложение не работает без облачного (SaaS) сервиса и превращается в кирпич при отсутствии интернета или сетевых ограничениях
- cloud-first - приложение сильно зависит от облачного сервиса, много теряет при его отсутствии, но что-то может делать и без него
- local-first - приложение которое всё может делать локально, но какие-то функции делает лучше при наличии доступа к внешним сервисам, включая облачные
- local-only - приложение не предусматривающее никого использования внешних сервисов. Для применения его с облачными и SaaS сервисами пользователь должен сделать набор осознанных действий явным образом

Относится к этому можно как то что cloud-only продукты - это то что является одной из приоритетных бизнес моделей у современных стартапов, в том числе с открытым кодом и любое продвижение их это как бесплатный маркетинг продуктов с зависимостью (там всегда подписочная модель).

А local-only - это выбор параноиков и фанатиков. Параноики те кто эксплуатируют ПО в средах без Интернета, а фанатики бывают разные, но в основном те кто категорически ненавидят бигтехи и AI-техи.

Всё остальное - это шкала градаций между ними и относится к этому стоит как то что local-only подход всё более дискомфортен для разработчиков ПО. По разным причинам: низкие доходы, сложности сопровождения, ограничения в выборе инструментов разработки и тд. А cloud-only идёт против интересов квалифицированного пользователя работа которого всё более зависит от облачных сервисов которыми он управляет всё менее.

По моему личному опыту все лучшие продукты сейчас - это local-first. Условно когда я могу подключить приложение к локальной ИИ модели через Ollama или к облачной одного из провайдеров. Задача возникающая не абстрактно, а из реального кейса разработчиков одного из инструментов работы с данными и обсуждающих режим работы local-only поставку языковой модели вместе с продуктом.

Всё это очень важно когда речь идёт о каких-либо продуктах с открытым кодом и оценке зависимости от внешних сервисов собственной инфраструктуры.

#data #opensource #clouds
👍191🔥1🤨1
В рубрике как это устроено у них официальные сайты метеорологических служб 20 африканских стран работают на одном стандартизированном продукте с открытым кодом Climweb [1], например, это метеослужбы Бенина [2] и Нигера [3] и многих других, а также планируется что ещё в 6 странах метеослужбы перейдут на это ПО.

В чём его особенность:
- открытый код на базе Python + Wagtail
- совместная разработка офиса WMO и NORCAP, это норвежский центр по гуманитарному развитию при Правительстве Норвегии
- унифицированное, правда, недокументированное API
- под лицензией MIT

Все эти порталы работают в связке с общей инфраструктурой WMO и провайдерами данных, в ряде стран установлены, также, сервисы Wis2Box собирающие данные со станций наблюдения и отдающие их по стандартным протоколам OGC для геоданных. Про Wis2Box я ранее писал и, похоже, их распространение сильно продвинулось на последние 1.5 года. Как каталоги данных они очень невелики, а как открытые климатические данные любопытны.

Ссылки:
[1] https://github.com/wmo-raf/climweb
[2] https://www.meteobenin.bj/
[3] https://www.niger-meteo.ne/

#opendata #api #climate #opensource
👍73🍌1