Написал краткий обзор новых возможностей [1] в Dateno, включая открытую статистику, расширенный поисковый индексы, фасеты и API.
Лонгриды буду и далее разворачивать на Substack на русском языке, а на английском языке на Medium [2]
Ссылки:
[1] https://open.substack.com/pub/begtin/p/dateno?r=7f8e7&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true
[2] https://medium.com/@ibegtin/just-recently-we-updated-our-dateno-dataset-search-dateno-io-065276450829
#opendata #datasearch #dateno #datadiscovery
Лонгриды буду и далее разворачивать на Substack на русском языке, а на английском языке на Medium [2]
Ссылки:
[1] https://open.substack.com/pub/begtin/p/dateno?r=7f8e7&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true
[2] https://medium.com/@ibegtin/just-recently-we-updated-our-dateno-dataset-search-dateno-io-065276450829
#opendata #datasearch #dateno #datadiscovery
Ivan’s Begtin Newsletter on digital, open and preserved government
Обновления в Dateno
Статистика, API, новые фасеты и ещё больше данных.
Знаете ли Вы что... DBPedia - это не только цельная база данных, но и большой каталог наборов данных созданных на её основе. Все они собраны на портале databus.dbpedia.org [1], например, в виде коллекции дата файлов извлеченных из последней итерации обработчика Википедии.
Хотя лично у меня до сих пор немало сомнений насколько концепции Semantic Web И Linked Data приживутся за пределами научного мира, но что точно способствует их популяризации так это доступность больших наборов данных. А в DBPedia Databus определённо данных много. Это немалый, хотя и малоизвестный каталог открытых данных.
Ссылки:
[1] https://databus.dbpedia.org
[2] https://databus.dbpedia.org/dbpedia/collections/latest-core
#opendata #datasets #datadiscovery
Хотя лично у меня до сих пор немало сомнений насколько концепции Semantic Web И Linked Data приживутся за пределами научного мира, но что точно способствует их популяризации так это доступность больших наборов данных. А в DBPedia Databus определённо данных много. Это немалый, хотя и малоизвестный каталог открытых данных.
Ссылки:
[1] https://databus.dbpedia.org
[2] https://databus.dbpedia.org/dbpedia/collections/latest-core
#opendata #datasets #datadiscovery
Есть задачи для которых LLM совсем не годятся, а есть те которые годятся очень даже. Например, есть довольно узкая, но очень частая задача автоматического документирования данных.
У меня есть набор запросов к LLM на которых я это тестирую автодокументирование наборов данных. На полях/колонках которые содержат слова позволяющие по смыслу понять что там LLM выдает очень вменяемые ответы.
Это сколько же инструментов надо теперь переделать чтобы повысить их эффективность😂
В рамках экспериментов с Dateno у меня где-то несколько сотен тысяч схем CSV файлов которые можно превратить во что-то что было бы чем-то большим чем просто схема. В документацию.
#opendata #thoughts #datadiscovery #dataengineering #dataquality #datadocumentation
У меня есть набор запросов к LLM на которых я это тестирую автодокументирование наборов данных. На полях/колонках которые содержат слова позволяющие по смыслу понять что там LLM выдает очень вменяемые ответы.
Это сколько же инструментов надо теперь переделать чтобы повысить их эффективность😂
В рамках экспериментов с Dateno у меня где-то несколько сотен тысяч схем CSV файлов которые можно превратить во что-то что было бы чем-то большим чем просто схема. В документацию.
#opendata #thoughts #datadiscovery #dataengineering #dataquality #datadocumentation
Forwarded from Dateno
Global stats just got a major upgrade at Dateno!
We’ve updated time series from the World Bank (DataBank) and International Labour Organization (ILOSTAT) — now available in a more powerful and usable format.
📊 What’s new?
19,000+ indicators across economics, employment, trade, health & more
3.85 million time series with clean structure and rich metadata
Support for multiple export formats: CSV, Excel, JSON, Stata, Parquet, and more
Fully documented schemas and all source metadata included
We’re not just expanding our data coverage — we’re raising the bar for how usable and reliable open statistical data can be.
And there’s more coming:
📡 New sources of global indicators
🧠 Improved dataset descriptions
🧩 A specialized API for working with time series in extended formats
Have a specific use case for international statistics? We’d love to hear from you → [email protected]
🔍 Try it now: https://dateno.io
#openData #datadiscovery #statistics #dataengineering #dateno #worldbank #ILOSTAT
We’ve updated time series from the World Bank (DataBank) and International Labour Organization (ILOSTAT) — now available in a more powerful and usable format.
📊 What’s new?
19,000+ indicators across economics, employment, trade, health & more
3.85 million time series with clean structure and rich metadata
Support for multiple export formats: CSV, Excel, JSON, Stata, Parquet, and more
Fully documented schemas and all source metadata included
We’re not just expanding our data coverage — we’re raising the bar for how usable and reliable open statistical data can be.
And there’s more coming:
📡 New sources of global indicators
🧠 Improved dataset descriptions
🧩 A specialized API for working with time series in extended formats
Have a specific use case for international statistics? We’d love to hear from you → [email protected]
🔍 Try it now: https://dateno.io
#openData #datadiscovery #statistics #dataengineering #dateno #worldbank #ILOSTAT
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
Я совсем недавно писал про реестр каталогов Dateno и о применении ИИ к его обогащению. Сейчас могу сказать что реестр существенно обновился, его можно увидеть там же на dateno.io/registry и теперь почти у всех записей там есть сведения о наименовании каталога, его описанию, тематикам, а также у каталогов региональных властей и городов есть геопривязка на уровне кода ISO 3166-2 (субрегионы) по классификации ISO и ещё многое другое. Всё остальное можно постепенно или быстро доделать вручную
Реестр можно всегда посмотреть как датасет в JSONl и Parquet форматах
Хорошая новость - облачные ИИ агенты, с некоторыми плясками с бубном, хорошо справляются с нахождением разных метаданных связанных с сайтами.
А вот то с чем ИИ агенты справляются пока что посредственно - это то что можно отнести к data discovery. Например, откуда я первоначально находил порталы открытых данных? Через анализ сотен миллионов ссылок в Common Crawl где порталы с данными, геопорталы и тд. находились по определённым шаблонам ссылок, типа если в ссылке есть /rest/services то это скорее всего ArcGIS REST Services. А если /geoserver/web то экземпляр GeoServer и так далее. Таких типовых шаблонов пара десятков и вместе с автоматизированным ПО по идентификации API выявлялось довольно много всего.
Плюс к этому подборки списков сайтов на сайтах их разработчиков, плюс каталоги источников, например, научных репозиториев и так далее.
Всё это значительно глубже чем то куда заглядывают облачные ИИ. Уж очень специализированная задача, сама по себе. Кроме того многие реальные сервера с данными скрыты за интерфейсами, например, публичных геопорталов.
Но есть и другая сторона, тот же ChatGPT выдаёт очень неплохие результаты с идентификацией некоторых геопорталов и каталогов данных которых в реестре Dateno пока что нет. Пример, с каталогами данных и геопорталами Армении. Кстати ChatGPT 3o для таких задач оказывается пока эффективнее всего. Claude сильно галлюцинирует, а Gemini 2.5 даёт быстрые, но ограниченные результаты.
Важно помнить что почти все ИИ агенты используют сам Dateno как источник и существенная часть результатов повторяется с тем что у нас есть в реестре. Но не на 100% поэтому результат имеет ценность.
#dateno #ai #dataanalysis #datadiscovery
Реестр можно всегда посмотреть как датасет в JSONl и Parquet форматах
Хорошая новость - облачные ИИ агенты, с некоторыми плясками с бубном, хорошо справляются с нахождением разных метаданных связанных с сайтами.
А вот то с чем ИИ агенты справляются пока что посредственно - это то что можно отнести к data discovery. Например, откуда я первоначально находил порталы открытых данных? Через анализ сотен миллионов ссылок в Common Crawl где порталы с данными, геопорталы и тд. находились по определённым шаблонам ссылок, типа если в ссылке есть /rest/services то это скорее всего ArcGIS REST Services. А если /geoserver/web то экземпляр GeoServer и так далее. Таких типовых шаблонов пара десятков и вместе с автоматизированным ПО по идентификации API выявлялось довольно много всего.
Плюс к этому подборки списков сайтов на сайтах их разработчиков, плюс каталоги источников, например, научных репозиториев и так далее.
Всё это значительно глубже чем то куда заглядывают облачные ИИ. Уж очень специализированная задача, сама по себе. Кроме того многие реальные сервера с данными скрыты за интерфейсами, например, публичных геопорталов.
Но есть и другая сторона, тот же ChatGPT выдаёт очень неплохие результаты с идентификацией некоторых геопорталов и каталогов данных которых в реестре Dateno пока что нет. Пример, с каталогами данных и геопорталами Армении. Кстати ChatGPT 3o для таких задач оказывается пока эффективнее всего. Claude сильно галлюцинирует, а Gemini 2.5 даёт быстрые, но ограниченные результаты.
Важно помнить что почти все ИИ агенты используют сам Dateno как источник и существенная часть результатов повторяется с тем что у нас есть в реестре. Но не на 100% поэтому результат имеет ценность.
#dateno #ai #dataanalysis #datadiscovery