Для тех кто любит командную строку и ищет данные регулярно, готова утилита dateno [1] для того чтобы искать в Dateno датасеты.
Утилита поддерживает много разных возможностей, включая отправку фильтров для фасетов, листание страниц, получение отдельных записей из индекса, возвращение результатов в JSON и YAML форматах и получение подробной информации по каталогу данных (первоисточнику).
Как с её помощью искать данные?
Вот простой пример команды поиска по слову бюджет на русском языке по датасетам связанным с Кыргызстаном.
Или узнать сколько датасетов находится по словам "Serbia electricity"
А также много других примеров, обязательно посмотрите их в описании репозитория.
Вопросы по работе инструмента можно задавать мне в чате или личным сообщением, баги и предложения лучше всего отправлять в issues репозитория.
Всё это пример работы API Dateno и далее примеров будет куда больше и интеграции поиска Dateno в другие инструменты и сервисы. API - это сейчас ключевой продукт Dateno, с его помощью можно интегрировать поиск данных для самых разных целей: аналитики, визуализации, обучения ИИ, создания порталов с открытыми данными по темам и регионам и многое другое.
Ссылки:
[1] https://github.com/datenoio/datenocmd
#opendata #opensource #commandline #datasearch #data
Утилита поддерживает много разных возможностей, включая отправку фильтров для фасетов, листание страниц, получение отдельных записей из индекса, возвращение результатов в JSON и YAML форматах и получение подробной информации по каталогу данных (первоисточнику).
Как с её помощью искать данные?
Вот простой пример команды поиска по слову бюджет на русском языке по датасетам связанным с Кыргызстаном.
dateno index search 'бюджет' --filters '"source.langs.name"="Russian";"source.countries.name"="Kyrgyzstan"' --headers id,dataset.title,source.name --mode results --page 1
Или узнать сколько датасетов находится по словам "Serbia electricity"
dateno index search 'Serbia electricity' --mode totals
А также много других примеров, обязательно посмотрите их в описании репозитория.
Вопросы по работе инструмента можно задавать мне в чате или личным сообщением, баги и предложения лучше всего отправлять в issues репозитория.
Всё это пример работы API Dateno и далее примеров будет куда больше и интеграции поиска Dateno в другие инструменты и сервисы. API - это сейчас ключевой продукт Dateno, с его помощью можно интегрировать поиск данных для самых разных целей: аналитики, визуализации, обучения ИИ, создания порталов с открытыми данными по темам и регионам и многое другое.
Ссылки:
[1] https://github.com/datenoio/datenocmd
#opendata #opensource #commandline #datasearch #data
👍8🐳6❤4
Для тех кто ищет открытые данные и не знает где их найти, вот, например, в России нет национального портала геоданных, да и самих геоданных, непонятно, есть или нет и где непонятно тоже.
В Dateno проиндексированы десятки российских геопорталов, их данные никогда не попадали в Data.gov.ru и чаще всего были вообще неизвестны широкой аудитории.
Например, вот поиск по слову "границы" по геопорталам в РФ с помощью datenocmd:
и поиск по слову borders
или данные по морям
Причём можно искать данные сразу в шэйпах добавив в фильтры "dataset.formats"=".shp" или можно искать только среди инсталляций ArcGIS через "source.software.name"="ArcGIS Server"' или только по геопорталам региональных и муниципальных властей "source.owner_type"="Regional government"
И так далее. Для геоданных следующий шаг - это уже поиск по полигонам и геокоординатам, однажды и он тоже появится
#opendata #datasearch #dateno #data #geodata
В Dateno проиндексированы десятки российских геопорталов, их данные никогда не попадали в Data.gov.ru и чаще всего были вообще неизвестны широкой аудитории.
Например, вот поиск по слову "границы" по геопорталам в РФ с помощью datenocmd:
dateno index search 'границы' --filters '"source.catalog_type"="Geoportal";"source.countries.name"="Russian Federation"' --headers id,dataset.title,source.name,source.uid --mode results --per-page 50 --page 1
и поиск по слову borders
dateno index search 'borders' --filters '"source.catalog_type"="Geoportal";"source.countries.name"="Russian Federation"' --headers id,dataset.title,source.name,source.uid --mode results --per-page 50 --page 1
или данные по морям
dateno index search 'моря' --filters '"source.catalog_type"="Geoportal";"source.countries.name"="Russian Federation"' --headers id,dataset.title,source.name,source.uid --mode results --per-page 50 --page 1
Причём можно искать данные сразу в шэйпах добавив в фильтры "dataset.formats"=".shp" или можно искать только среди инсталляций ArcGIS через "source.software.name"="ArcGIS Server"' или только по геопорталам региональных и муниципальных властей "source.owner_type"="Regional government"
И так далее. Для геоданных следующий шаг - это уже поиск по полигонам и геокоординатам, однажды и он тоже появится
#opendata #datasearch #dateno #data #geodata
👍11✍5
В рубрике интересных каталогов и поисковиков по данным проект WorldEx [1] каталог данных и поисковик геоданных привязанных к хексагонам.
Кодирование через хексагоны стало популярным относительно недавно, авторы используют библиотеку H3 [2] от Uber.
Подход любопытный, благо в Dateno у нас миллионы датасетов с геоданными и было бы любопытно разметить их по хексагонам. Очень любопытно.
Сам проект worldex с открытым кодом [3], хранят данные в PostGIS и Elasticsearch.
Жаль не удалось найти код конвейеров данных по геокодированию в H3, но и без него такое можно повторить.
Ссылки:
[1] https://worldex.org
[2] https://h3geo.org
[3] https://github.com/worldbank/worldex
#opendata #data #search #datasearch #datacatalogs #dataviz #geodata
Кодирование через хексагоны стало популярным относительно недавно, авторы используют библиотеку H3 [2] от Uber.
Подход любопытный, благо в Dateno у нас миллионы датасетов с геоданными и было бы любопытно разметить их по хексагонам. Очень любопытно.
Сам проект worldex с открытым кодом [3], хранят данные в PostGIS и Elasticsearch.
Жаль не удалось найти код конвейеров данных по геокодированию в H3, но и без него такое можно повторить.
Ссылки:
[1] https://worldex.org
[2] https://h3geo.org
[3] https://github.com/worldbank/worldex
#opendata #data #search #datasearch #datacatalogs #dataviz #geodata
👍4
Forwarded from Open Data Armenia
Для тех кто ищет данные об Армении в мире, обновился поисковый индекс проекта Dateno [1] и теперь он включает более 25 тысяч наборов данных о стране, большая часть данных это статистические индикаторы Всемирного банка, ВТО, Банка международных расчётов и других. А также иные статистические показатели и геоданные.
Ещё можно найти немало датасетов с упоминанием Еревана [2] как крупнейшего города страны
А также тысячи наборов данных доступны при поиске по слову Armenia [3], но иногда возникают пересечения с одноимённым городом в Колумбии [4]🇨🇴
Dateno доступен через веб интерфейс и через API, получить ключ можно после регистрации и проверить его с помощью утилиты командной строки [5].
P.S. Основатели Open Data Armenia также являются основателями Dateno, данные по Армении можно будет использовать на хакатонах по открытым данным, а самые интересные датасеты мы будем копировать на портал открытых данных Open Data Armenia.
Ссылки:
[1] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Armenia
[2] https://dateno.io/search?query=Yerevan
[3] https://dateno.io/search?query=Armenia
[4] https://en.wikipedia.org/wiki/Armenia,_Colombia
[5] https://github.com/datenoio/datenocmd
#opendata #data #armenia #datasearch
Ещё можно найти немало датасетов с упоминанием Еревана [2] как крупнейшего города страны
А также тысячи наборов данных доступны при поиске по слову Armenia [3], но иногда возникают пересечения с одноимённым городом в Колумбии [4]🇨🇴
Dateno доступен через веб интерфейс и через API, получить ключ можно после регистрации и проверить его с помощью утилиты командной строки [5].
P.S. Основатели Open Data Armenia также являются основателями Dateno, данные по Армении можно будет использовать на хакатонах по открытым данным, а самые интересные датасеты мы будем копировать на портал открытых данных Open Data Armenia.
Ссылки:
[1] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Armenia
[2] https://dateno.io/search?query=Yerevan
[3] https://dateno.io/search?query=Armenia
[4] https://en.wikipedia.org/wiki/Armenia,_Colombia
[5] https://github.com/datenoio/datenocmd
#opendata #data #armenia #datasearch
👍5❤1
Написал краткий обзор новых возможностей [1] в Dateno, включая открытую статистику, расширенный поисковый индексы, фасеты и API.
Лонгриды буду и далее разворачивать на Substack на русском языке, а на английском языке на Medium [2]
Ссылки:
[1] https://open.substack.com/pub/begtin/p/dateno?r=7f8e7&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true
[2] https://medium.com/@ibegtin/just-recently-we-updated-our-dateno-dataset-search-dateno-io-065276450829
#opendata #datasearch #dateno #datadiscovery
Лонгриды буду и далее разворачивать на Substack на русском языке, а на английском языке на Medium [2]
Ссылки:
[1] https://open.substack.com/pub/begtin/p/dateno?r=7f8e7&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true
[2] https://medium.com/@ibegtin/just-recently-we-updated-our-dateno-dataset-search-dateno-io-065276450829
#opendata #datasearch #dateno #datadiscovery
Ivan’s Begtin Newsletter on digital, open and preserved government
Обновления в Dateno
Статистика, API, новые фасеты и ещё больше данных.
❤4👍4❤🔥1
Лично я постоянно ищу какие есть поисковики по данным, глобальные и национальные, а недавно обнаружил что оказывается такой поисковик есть у правительства Шотландии find.data.gov.scot и по многим параметрам он напоминает Dateno, что хорошо😜, но тысячу раз меньше поэтому не конкурент😂.
Итак, в Шотландии пр-во достаточно давно планирует осуществить открытие портала открытых данных data.gov.scot, но пока они этого не сделали они пошли по австралийскому пути создания национального поисковика по данным.
Всего на портале на главной странице декларируется что присутствует 17 тысяч датасетов, а на странице поиска только 11 тысяч. Метаданные о них собираются из примерно 60 источников данных (data hosts) через парсеры нескольких видов API.
Что мне нравится, ребята явно идут нашим путём и проанализировали не меньше пары сотен источников данных, систематизировали их API, идентифицировали ПО некоторых каталогов данных о которых я не знал (MetadataWorks, USmart и др.), но при этом про наш каталог Dateno registry явно не знали. Плюс у них в источниках данных многое что каталогами данных назвать нельзя, публикации файлов отдельными ведомствами, но для сбора датасетов на региональном уровне явно полезно..
В итоге поисковик у них получается, на самом деле, не совсем поисковик, поскольку у каждого датасета есть веб страница с метаданными.
Из всего что я видел - это, пока, наибольшее приближение к подходу в Dateno, за исключением, масштаба, конечно.
Если делать внутристрановой поисковик по данным то на их проект стоит обратить внимание. Они явно писали HTML парсеры под разделы статистики на многих сайтах и значительная часть датасетов там - это PDF файлы статистики нескольких инспекций.
В любом случае любопытно, в том числе как референсные оценки числа датасетов в Шотландии. В Dateno их сейчас около 8 тысяч, в этом местном поисковике их около 11 тысяч. Есть куда стремиться 🛠
#opendata #scotland #datasets #data #datasearch #dateno
Итак, в Шотландии пр-во достаточно давно планирует осуществить открытие портала открытых данных data.gov.scot, но пока они этого не сделали они пошли по австралийскому пути создания национального поисковика по данным.
Всего на портале на главной странице декларируется что присутствует 17 тысяч датасетов, а на странице поиска только 11 тысяч. Метаданные о них собираются из примерно 60 источников данных (data hosts) через парсеры нескольких видов API.
Что мне нравится, ребята явно идут нашим путём и проанализировали не меньше пары сотен источников данных, систематизировали их API, идентифицировали ПО некоторых каталогов данных о которых я не знал (MetadataWorks, USmart и др.), но при этом про наш каталог Dateno registry явно не знали. Плюс у них в источниках данных многое что каталогами данных назвать нельзя, публикации файлов отдельными ведомствами, но для сбора датасетов на региональном уровне явно полезно..
В итоге поисковик у них получается, на самом деле, не совсем поисковик, поскольку у каждого датасета есть веб страница с метаданными.
Из всего что я видел - это, пока, наибольшее приближение к подходу в Dateno, за исключением, масштаба, конечно.
Если делать внутристрановой поисковик по данным то на их проект стоит обратить внимание. Они явно писали HTML парсеры под разделы статистики на многих сайтах и значительная часть датасетов там - это PDF файлы статистики нескольких инспекций.
В любом случае любопытно, в том числе как референсные оценки числа датасетов в Шотландии. В Dateno их сейчас около 8 тысяч, в этом местном поисковике их около 11 тысяч. Есть куда стремиться 🛠
#opendata #scotland #datasets #data #datasearch #dateno
🔥6👍4❤1💯1
К вопросу о том как и где искать данные, в качестве регулярного напоминания:
Поисковые системы по данным
- Dateno - поисковая система по всем видам наборов данных, геоданных и научных данных, агрегирует их из более чем 5 тысяч каталогов данных, включает 19 миллионов карточек датасетов
- Google Dataset Search - исследовательская поисковая система по датасетам от Google. Охватывает все датасеты в мире опубликованные по стандарту Schema.org Dataset, включает около 50 миллионов карточек датасетов
Поисковые системы по научным данным
- DataCite Commons - поисковик по всем датасетам которым присвоен DOI через сервис DataCite. Более 22 миллионов карточек наборов данных. Используется многими другими поисковыми системами и агрегаторами наборов данных. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- OpenAIRE - поисковая система ЕС по результатам научной деятельности включая датасеты. Около 19 миллионов карточек датасетов. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- BASE (Bielefeld Academic Search Engine) - поисковая система по научным публикациям от Bielefeld University. Включает 25 миллионов карточек датасетов из которых 22 миллиона агргеггируются из DataCite. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- Mendeley Data - поисковик по научным данным от Elsevier, декларирует 26 миллионов карточек датасетов, в реальности многие из низ - это фрагменты единых баз данных или документы в университетских библиотеках. За их исключением реальное число наборов данных ближе к 5 миллионам. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
Платформы и крупнейшие порталы научных данных
- Figshare - одна из крупнейших онлайн платформ для публикации научных данных. Содержит всего 2 миллиона наборов данных включая сами данные. Более половины этих наборов данных происходят из публикаций в рамках Public Library of Science (PLOS).
- OSF - открытая платформа для публикации научных данных. Точное число датасетов измерить сложно поскольку открытой статистики, или нет, или до неё сложно добраться, но можно исходить из того что это как минимум сотни тысяч наборов данных
- DataOne - каталог и агрегатор данных наук о земле. Более 777 тысяч наборов данных, включая все ресурсы/файлы к ним приложенные
Поисковики по геоданным
- GeoSeer - чуть ли не единственный специализированный поисковик по геоданным. Обещают что охватывают 3.5 миллионов точек подключения к гео API таким как WMS, WFS, WMTS и др.
P.S. Существует также большое число крупных порталов данных и агрегаторов в других областях: машинное обучение, статистика, геоданные. О них в следующий раз
#opendata #data #datasearch #datasets #geodata #openaccess
Поисковые системы по данным
- Dateno - поисковая система по всем видам наборов данных, геоданных и научных данных, агрегирует их из более чем 5 тысяч каталогов данных, включает 19 миллионов карточек датасетов
- Google Dataset Search - исследовательская поисковая система по датасетам от Google. Охватывает все датасеты в мире опубликованные по стандарту Schema.org Dataset, включает около 50 миллионов карточек датасетов
Поисковые системы по научным данным
- DataCite Commons - поисковик по всем датасетам которым присвоен DOI через сервис DataCite. Более 22 миллионов карточек наборов данных. Используется многими другими поисковыми системами и агрегаторами наборов данных. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- OpenAIRE - поисковая система ЕС по результатам научной деятельности включая датасеты. Около 19 миллионов карточек датасетов. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- BASE (Bielefeld Academic Search Engine) - поисковая система по научным публикациям от Bielefeld University. Включает 25 миллионов карточек датасетов из которых 22 миллиона агргеггируются из DataCite. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- Mendeley Data - поисковик по научным данным от Elsevier, декларирует 26 миллионов карточек датасетов, в реальности многие из низ - это фрагменты единых баз данных или документы в университетских библиотеках. За их исключением реальное число наборов данных ближе к 5 миллионам. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
Платформы и крупнейшие порталы научных данных
- Figshare - одна из крупнейших онлайн платформ для публикации научных данных. Содержит всего 2 миллиона наборов данных включая сами данные. Более половины этих наборов данных происходят из публикаций в рамках Public Library of Science (PLOS).
- OSF - открытая платформа для публикации научных данных. Точное число датасетов измерить сложно поскольку открытой статистики, или нет, или до неё сложно добраться, но можно исходить из того что это как минимум сотни тысяч наборов данных
- DataOne - каталог и агрегатор данных наук о земле. Более 777 тысяч наборов данных, включая все ресурсы/файлы к ним приложенные
Поисковики по геоданным
- GeoSeer - чуть ли не единственный специализированный поисковик по геоданным. Обещают что охватывают 3.5 миллионов точек подключения к гео API таким как WMS, WFS, WMTS и др.
P.S. Существует также большое число крупных порталов данных и агрегаторов в других областях: машинное обучение, статистика, геоданные. О них в следующий раз
#opendata #data #datasearch #datasets #geodata #openaccess
✍9
Продолжая тему данных о климате и наблюдении за океанами и морями, проект SeaDataNet [1] пан-Европейская инициатива по упрощению доступа к данным морских исследований. Включает поиск по более чем 3 миллионам наборам данных [2] которые являются пробами, наблюдениями и так далее.
Большая часть данных происходит из Франции, более 1.1 миллиона записей, но много данных и из России, порядка 182 тысяч записей.
Данные есть из практически всех европейских и многих околоевропейских стран с выходом к морю. Поэтому данные, к примеру, из Грузии есть, а из Армении нет.
Почти все данные под лицензией Creative Commons, но для доступа нужна регистрация.
Это другой пример очень специфических отраслевых данных, можно обратить внимание что поиск по ним по собственным уникальным фильтрам таким как: морской регион, координаты, научная дисциплина, способ получения данных и так далее.
Привязка данных связана скорее с географическим положением, чем с административными границами.
Ссылки:
[1] https://www.seadatanet.org/
[2] https://cdi.seadatanet.org/search
#opendata #climate #oceans #europe #datacatalogs #datasearch
Большая часть данных происходит из Франции, более 1.1 миллиона записей, но много данных и из России, порядка 182 тысяч записей.
Данные есть из практически всех европейских и многих околоевропейских стран с выходом к морю. Поэтому данные, к примеру, из Грузии есть, а из Армении нет.
Почти все данные под лицензией Creative Commons, но для доступа нужна регистрация.
Это другой пример очень специфических отраслевых данных, можно обратить внимание что поиск по ним по собственным уникальным фильтрам таким как: морской регион, координаты, научная дисциплина, способ получения данных и так далее.
Привязка данных связана скорее с географическим положением, чем с административными границами.
Ссылки:
[1] https://www.seadatanet.org/
[2] https://cdi.seadatanet.org/search
#opendata #climate #oceans #europe #datacatalogs #datasearch
✍3❤1
Forwarded from Dateno
🚀 Dateno Enters Industrial Operation – Redefining Global Dataset Search
We’re excited to announce that Dateno has officially transitioned to full-scale industrial operation! 🎉 Now, data professionals worldwide can seamlessly access over 20 million high-quality datasets with advanced filtering, API integration, and continuously updated sources.
🔍 What makes Dateno stand out?
✅ Extensive dataset collection – 20M+ datasets indexed, aiming for 30M.
✅ Advanced filtering – Search by dataset owner, geography, topic, and more.
✅ AI-powered search – Recognizes semantic relationships (DOI, geolocation).
✅ API-first approach – Seamless integration into analytics & ML pipelines.
✅ High-quality, ad-free data – Focused on clean, structured, and trustworthy datasets.
💡 What’s next?
🔹 Expanding the dataset index to cover even more industries & research fields.
🔹 Improving search quality & user experience.
🔹 Enhancing AI-driven search for more relevant results.
🔹 Adding new API capabilities for seamless integration.
🔹 Launching tools to help professionals derive deeper insights.
Dateno is more than a search engine – it’s an ecosystem built to make data discovery effortless. 🌍
Join us and experience the next level of fast, precise, and integrated dataset search!
👉 Learn more: dateno.io
📩 Contact us: [email protected]
#Dateno #DataSearch #MachineLearning #BigData #AI
We’re excited to announce that Dateno has officially transitioned to full-scale industrial operation! 🎉 Now, data professionals worldwide can seamlessly access over 20 million high-quality datasets with advanced filtering, API integration, and continuously updated sources.
🔍 What makes Dateno stand out?
✅ Extensive dataset collection – 20M+ datasets indexed, aiming for 30M.
✅ Advanced filtering – Search by dataset owner, geography, topic, and more.
✅ AI-powered search – Recognizes semantic relationships (DOI, geolocation).
✅ API-first approach – Seamless integration into analytics & ML pipelines.
✅ High-quality, ad-free data – Focused on clean, structured, and trustworthy datasets.
💡 What’s next?
🔹 Expanding the dataset index to cover even more industries & research fields.
🔹 Improving search quality & user experience.
🔹 Enhancing AI-driven search for more relevant results.
🔹 Adding new API capabilities for seamless integration.
🔹 Launching tools to help professionals derive deeper insights.
Dateno is more than a search engine – it’s an ecosystem built to make data discovery effortless. 🌍
Join us and experience the next level of fast, precise, and integrated dataset search!
👉 Learn more: dateno.io
📩 Contact us: [email protected]
#Dateno #DataSearch #MachineLearning #BigData #AI
2🎉12⚡5🔥5❤2🤩2👍1
В рубрике как это устроено у них про порталы открытых данных и просто порталы с данными в США, я как-то писал что их очень много и то что собрано на data.gov - это капля в море. Я сейчас занимаюсь масштабным обновлением реестра Dateno используя ИИ агенты и как раз удалось улучшить идентификацию геопривязки к странам и территориям. Так что вот некоторые цифры на основе обновлённого реестра.
Всего в США каталогов данных: 2418 (это чуть менее 24% от всего зарегистрированных каталогов)
Среди них:
- 1720 каталогов геоданных
- 417 порталов открытых данных
- 227 научных репозиториев
и по мелочи остальных
Такое число каталогов геоданных поскольку к ним относятся все порталы данных в США на базе ArcGIS Hub, их 1196 и сервера с REST API ArcGIS, их 413
По типу владельца каталога данных:
- 1057 - это города и муниципалитеты (counties)
- 420 - исследовательские центры и университеты
- 368 - федеральные власти
- 332 - региональные власти
Оставшиеся относятся к коммерческим, общественным и международным.
Сейчас в реестре покрытие всех штатов в Dateno составляет 50 + 2 (50 штатов + округ Колумбия + Пуэрто Рико)
Более всего региональных и муниципальных порталов в Калифорнии, их 213. Следующим идёт Техас - 77 каталогов и далее Северная Каролина 65 каталогов.
Менее всего региональных каталогов данных в Южной Дакоте, там всего 1 сервер с ArcGIS.
Следующие по масштабам страны:
- Франция - 513 каталогов данных
- Великобритания - 448 каталогов данных
- Канада - 407 каталогов данных
- Германия - 397 каталогов данных
При этом надо оговориться что в Европе и в США каталогов данных может быть значительно больше, просто их поиск по муниципалитетам очень трудоёмок.
Для сравнения в России 167 каталогов данных из которых около 60 являются "номинальными", не обновлялись от 5 до 9 лет и содержат только мелкие административные данные.
Всё это, конечно, только про каталоги данных, а не про сами датасеты. По датасетам тоже лидируют США и Европа, это можно посмотреть в поиске на Dateno.io
Пишите если захотите какую-то интересную статистику которую можно подсчитать по индексу Dateno и, конечно, всегда можно воспользоваться утилитой datenocmd и API Dateno чтобы подсчитать интересную статистику по индексу.
#opendata #datasets #datasearch #usa #data
Всего в США каталогов данных: 2418 (это чуть менее 24% от всего зарегистрированных каталогов)
Среди них:
- 1720 каталогов геоданных
- 417 порталов открытых данных
- 227 научных репозиториев
и по мелочи остальных
Такое число каталогов геоданных поскольку к ним относятся все порталы данных в США на базе ArcGIS Hub, их 1196 и сервера с REST API ArcGIS, их 413
По типу владельца каталога данных:
- 1057 - это города и муниципалитеты (counties)
- 420 - исследовательские центры и университеты
- 368 - федеральные власти
- 332 - региональные власти
Оставшиеся относятся к коммерческим, общественным и международным.
Сейчас в реестре покрытие всех штатов в Dateno составляет 50 + 2 (50 штатов + округ Колумбия + Пуэрто Рико)
Более всего региональных и муниципальных порталов в Калифорнии, их 213. Следующим идёт Техас - 77 каталогов и далее Северная Каролина 65 каталогов.
Менее всего региональных каталогов данных в Южной Дакоте, там всего 1 сервер с ArcGIS.
Следующие по масштабам страны:
- Франция - 513 каталогов данных
- Великобритания - 448 каталогов данных
- Канада - 407 каталогов данных
- Германия - 397 каталогов данных
При этом надо оговориться что в Европе и в США каталогов данных может быть значительно больше, просто их поиск по муниципалитетам очень трудоёмок.
Для сравнения в России 167 каталогов данных из которых около 60 являются "номинальными", не обновлялись от 5 до 9 лет и содержат только мелкие административные данные.
Всё это, конечно, только про каталоги данных, а не про сами датасеты. По датасетам тоже лидируют США и Европа, это можно посмотреть в поиске на Dateno.io
Пишите если захотите какую-то интересную статистику которую можно подсчитать по индексу Dateno и, конечно, всегда можно воспользоваться утилитой datenocmd и API Dateno чтобы подсчитать интересную статистику по индексу.
#opendata #datasets #datasearch #usa #data
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
✍7⚡2
Продолжая про применение DuckDB для разного, то о чём я ранее не писал, это использование для задач подсчёта значения для последующей визуализации. Вот пример визуализации одного из старых слепков Dateno со взглядом на записи через типы каталогов данных. Можно увидеть и страны. Всё делается одной командой PIVOT которая разворачивает по колонкам значения по типам каталогов. Мне это нужно было для задачи оценки полноты (пустоты) по некоторым странам для измерения уровня покрытия Dateno. Можно увидеть что по некоторым странам есть только геоданные и показатели. Это одна из причин почему в Dateno есть сильный фокус на индексацию статистики, иначе не обеспечить разумное покрытие всех стран, а геоданных много потому что у многих стран есть геопорталы, но нет порталов открытых данных.
Это ещё не чистовой срез потому что там вперемешку коды стран и коды некоторых агрегатов, тем не менее весьма показательно. 100% покрытие стран сейчас только за счёт статистики. Это сейчас 71 страна и регион, все они бедные и развивающиеся страны.
Но, оговорюсь, это срез примерно полугодовой давности. Постепенно в Dateno будет больше не только статистики по странам, но и других датасетов, однако без статпоказателей просто никак.
А DuckDB очень удобный инструмент для подобных задач.
#datasets #datasearch #duckdb
Это ещё не чистовой срез потому что там вперемешку коды стран и коды некоторых агрегатов, тем не менее весьма показательно. 100% покрытие стран сейчас только за счёт статистики. Это сейчас 71 страна и регион, все они бедные и развивающиеся страны.
Но, оговорюсь, это срез примерно полугодовой давности. Постепенно в Dateno будет больше не только статистики по странам, но и других датасетов, однако без статпоказателей просто никак.
А DuckDB очень удобный инструмент для подобных задач.
#datasets #datasearch #duckdb
👍12🔥1
Я тут регулярно пишу про Dateno наш поисковик по открытым и иным общедоступным данным, у нас там сейчас уже более 22 миллионов датасетов, слоёв карт и временных рядов и мы работаем над расширением объёма. Однако есть и другой фронт работы - повышение удобства для пользователей. В моём изначальном видении пользователи хотят API (в самом деле ну какие пользователи не хотят API, лично я всегда использую API когда есть возможность). Сейчас наш основной API - это упрощённый поиск, им можно пользоваться чтобы находить данные и получив карточку записи выкачивать ресурсы.
Сейчас мы проектируем вторую версию API которое бы позволяло гораздо больше, в частности:
1. Предоставление MCP сервера для пользователей которые хотят подключить ИИ
2. Предоставление информации о всех срезах в базе данных (aggregations) для повышения удобства поиска.
3. Отдельный эндпоинт по выгрузке архивных данных
4. У нас есть отдельная база статистических индикаторов и временных рядов, с дополнительной навигацией и метаданными. Возможно расширенное API для доступа к именно к статистической базе данных. Она большая это, не просто индекс метаданных, но и сами данные
5. Расширенное API для поиска с продвинутым языком запросов (внутри Elastic, можно дать возможность делать запросы с языком запросов CQL)
Идей много, вопрос в том что нужно пользователям. Если Вы пользуетесь Dateno, и чего-то не хватает в API, напишите мне, мы обязательно учтём это при проектировании, а если не пользуетесь потому что чего-то не хватает, то тем более!
#dateno #opendata #datasearch #api
Сейчас мы проектируем вторую версию API которое бы позволяло гораздо больше, в частности:
1. Предоставление MCP сервера для пользователей которые хотят подключить ИИ
2. Предоставление информации о всех срезах в базе данных (aggregations) для повышения удобства поиска.
3. Отдельный эндпоинт по выгрузке архивных данных
4. У нас есть отдельная база статистических индикаторов и временных рядов, с дополнительной навигацией и метаданными. Возможно расширенное API для доступа к именно к статистической базе данных. Она большая это, не просто индекс метаданных, но и сами данные
5. Расширенное API для поиска с продвинутым языком запросов (внутри Elastic, можно дать возможность делать запросы с языком запросов CQL)
Идей много, вопрос в том что нужно пользователям. Если Вы пользуетесь Dateno, и чего-то не хватает в API, напишите мне, мы обязательно учтём это при проектировании, а если не пользуетесь потому что чего-то не хватает, то тем более!
#dateno #opendata #datasearch #api
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
🔥9❤1