В рубрике как это устроено у них о том как публикуется статистика в Латинской Америке. Большая часть переписей в Центральной и в Южной Америках публикуются с помощью ПО Redatam ( REcuperación de DATos para Almacenamiento en Microcomputadoras) разработанное в международном агентстве ECLAC и являющееся проприетарным продуктом для работы с метаданными и данными переписей и опросов публикуемых в форме микроданных. Я когда-то писал о нём [1]. Им пользуются не только латиноамериканские страны, но и многие страны Глобального Юга.
Хотя Redatam предлагается и с API [2], многие из инсталляций Redatam созданы довольно давно и для исследователей существует продукт Open Redatam [3] с помощью которого можно выгружать отдельные таблицы и работать с данными с помощью R и Python. На вход он принимает оригинальные файлы в формате dicx, а а на выходе выдает таблицы в CSV.
Ссылки:
[1] https://yangx.top/begtin/5087
[2] https://redatam.org/en
[3] https://github.com/litalbarkai/open-redatam
#opendata #datasets #statistics #census
Хотя Redatam предлагается и с API [2], многие из инсталляций Redatam созданы довольно давно и для исследователей существует продукт Open Redatam [3] с помощью которого можно выгружать отдельные таблицы и работать с данными с помощью R и Python. На вход он принимает оригинальные файлы в формате dicx, а а на выходе выдает таблицы в CSV.
Ссылки:
[1] https://yangx.top/begtin/5087
[2] https://redatam.org/en
[3] https://github.com/litalbarkai/open-redatam
#opendata #datasets #statistics #census
Telegram
Ivan Begtin
В рубрике как это устроено у них большая часть переписей населения в Южной Америке работает на ПО Redatam [1], оно же используется во многих странах Африки и Юго-Восточной Азии. Это продукт разработанный в Экономической комиссии для Латинской Америки и Карибского…
✍4❤2👍2
Где искать геоданные? Поскольку наша команда создает поисковик по данным Dateno, то, конечно же, с Dateno и стоит начать😉
Однако поиск геоданных это куда более сложная задача чем может показаться. Геопорталов в мире очень много и фрагментация геоданных очень высокая и далеко не все они попадают каталоги порталов открытых данных или научных репозиториев.
Помимо Dateno геоданные можно искать как минимум в двух поисковых системах: GeoSeer и ArcGIS Hub.
GeoSeer - это совсем маленький стартапчик позволяющий искать по точкам подключения к OGC совместимым сервисам (WMS, WFS, WMTS и тд.). Всего там заявляется 3.5 миллиона слоёв большая часть которых собрана через геопорталы на базе Geonetwork. У GeoSeer весьма ограниченный поиск, без фасетов и ИМХО, он скорее неудобный чем удобный, но тем не менее.
ArcGIS Hub - это сервис от крупнейшего провайдера геосервисов в мире, компании ArcGIS. Их Hub - это поисковик по порталам и по данным порталов открытых данных и геоданных которые пользователи облачных сервисов делали общедоступными. Это более 25 тысяч подсайтов, и около 300 тысяч слоёв карт, данных и документов.
Во всех случаях при работе с геоданными очень серьёзная проблема с дефицитом метаданных. Их объективно мало, при подключении к серверам GeoServer или корпоративным версиям ArcGIS их чаще нет, но, тем не менее, поиск по данным возможен и необходим.
Dateno всё ещё неидеален для поиска геоданных, но мы работаем над этим (с) и внимательно анализируем похожие сервисы.
#opendata #datasets #geodata #search
Однако поиск геоданных это куда более сложная задача чем может показаться. Геопорталов в мире очень много и фрагментация геоданных очень высокая и далеко не все они попадают каталоги порталов открытых данных или научных репозиториев.
Помимо Dateno геоданные можно искать как минимум в двух поисковых системах: GeoSeer и ArcGIS Hub.
GeoSeer - это совсем маленький стартапчик позволяющий искать по точкам подключения к OGC совместимым сервисам (WMS, WFS, WMTS и тд.). Всего там заявляется 3.5 миллиона слоёв большая часть которых собрана через геопорталы на базе Geonetwork. У GeoSeer весьма ограниченный поиск, без фасетов и ИМХО, он скорее неудобный чем удобный, но тем не менее.
ArcGIS Hub - это сервис от крупнейшего провайдера геосервисов в мире, компании ArcGIS. Их Hub - это поисковик по порталам и по данным порталов открытых данных и геоданных которые пользователи облачных сервисов делали общедоступными. Это более 25 тысяч подсайтов, и около 300 тысяч слоёв карт, данных и документов.
Во всех случаях при работе с геоданными очень серьёзная проблема с дефицитом метаданных. Их объективно мало, при подключении к серверам GeoServer или корпоративным версиям ArcGIS их чаще нет, но, тем не менее, поиск по данным возможен и необходим.
Dateno всё ещё неидеален для поиска геоданных, но мы работаем над этим (с) и внимательно анализируем похожие сервисы.
#opendata #datasets #geodata #search
👍12❤5❤🔥2🔥2
Для тех кто любит гиперлокальные данные, наконец-то доступны в открытом доступе наборы данных с хакатона СберИндекс.
Все данные в виде Parquet файлов
- Потребительские расходы на уровне МО: 8_consumption.parquet
- Индекс доступности рынков на уровне МО: 1_market_access.parquet
- Данные Росстата
- Население МО: 2_bdmo_population.parquet
- Миграция по МО: 3_bdmo_migration.parquet
- Заработная плата по МО: 4_bdmo_salary.parquet
- Автодорожные связи между МО: 5_connection.parquet
Там же можно увидеть результаты хакатона и команды победители. Я вот жалею что уже много лет участвую в таких мероприятиях только как организатор или ментор или член жюри. Сами данные куда интереснее.
Поскольку лично я очень люблю муниципальные данные, которые хотя бы чуть-чуть хорошие, то если Вы делаете что-то на муниципальных данных или использовали данные СберИндекса (и других источников) и, желательно, делали работу с открытым кодом, то пишите мне, с удовольствием расскажу об этом здесь в телеграм канале.
#opendata #dataviz #datasets #localdata
Все данные в виде Parquet файлов
- Потребительские расходы на уровне МО: 8_consumption.parquet
- Индекс доступности рынков на уровне МО: 1_market_access.parquet
- Данные Росстата
- Население МО: 2_bdmo_population.parquet
- Миграция по МО: 3_bdmo_migration.parquet
- Заработная плата по МО: 4_bdmo_salary.parquet
- Автодорожные связи между МО: 5_connection.parquet
Там же можно увидеть результаты хакатона и команды победители. Я вот жалею что уже много лет участвую в таких мероприятиях только как организатор или ментор или член жюри. Сами данные куда интереснее.
Поскольку лично я очень люблю муниципальные данные, которые хотя бы чуть-чуть хорошие, то если Вы делаете что-то на муниципальных данных или использовали данные СберИндекса (и других источников) и, желательно, делали работу с открытым кодом, то пишите мне, с удовольствием расскажу об этом здесь в телеграм канале.
#opendata #dataviz #datasets #localdata
sberindex.ru
Data → Sense: Результаты Хакатона СберИндекса по муниципальным данным
7 июня прошел Хакатон Лаборатории СберИндекс Data -> Sense, посвященный муниципальным данным
❤🔥9👍6⚡4❤3👌2
The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text [1] для тех кому нужны большие данные для обучения ИИ. По ссылке статья и другие материалы про этот набор данных в 8 терабайт текстов.
Это если не крупнейший, то один из крупнейших наборов данных с текстами под разрешающими использование лицензиями (все, конечно, понимают что реально для ИИ используют не только разрешённое, но тем не менее).
Большая часть источников это:
- каталоги статей открытого доступа
- проекты Фонда Викимедия (Википедия и тд)
- открытые патентные базы
- базы судебных решений США
- базы книг до 1929 года
В основном все материалы на английском языке и происходящие из США. Более 30 источников.
Ссылки:
[1] https://huggingface.co/papers/2506.05209
#opendata #datasets #ai
Это если не крупнейший, то один из крупнейших наборов данных с текстами под разрешающими использование лицензиями (все, конечно, понимают что реально для ИИ используют не только разрешённое, но тем не менее).
Большая часть источников это:
- каталоги статей открытого доступа
- проекты Фонда Викимедия (Википедия и тд)
- открытые патентные базы
- базы судебных решений США
- базы книг до 1929 года
В основном все материалы на английском языке и происходящие из США. Более 30 источников.
Ссылки:
[1] https://huggingface.co/papers/2506.05209
#opendata #datasets #ai
🔥7❤1
Заработала пилотная инфраструктура Европейского консорциума Open Web Search по созданию открытого европейского поисковика [1] всё под эгидой цифрового суверенитета Евросоюза, дословно - Europe’s Independence in Web Search.
Партнеры консорциума это 14 исследовательских центров и компаний включая CERN которые выпустили об этом пресс-релиз с подробностями [2].
У проекта есть открытая визуальная панель из которой можно узнать что:
- собрано данных на 1PB и из них сформирован индекс размером чуть менее 28TB
- опубликовано 615 общедоступных наборов данных
- 38% всего проиндексированного на английском языке
Исходный код доступен в открытых репозиториях [3]
Пока проект больше напоминает Common Crawl чем поиск Google или Bing, но даже так выглядит он любопытно, особенно когда будет доступно полноценное API для поиска.
Ссылки;
[1] https://openwebsearch.eu/
[2] https://home.cern/news/news/computing/european-project-make-web-search-more-open-and-ethical
[3] https://opencode.it4i.eu/openwebsearcheu-public/
#opendata #datasets #websearch #europe
Партнеры консорциума это 14 исследовательских центров и компаний включая CERN которые выпустили об этом пресс-релиз с подробностями [2].
У проекта есть открытая визуальная панель из которой можно узнать что:
- собрано данных на 1PB и из них сформирован индекс размером чуть менее 28TB
- опубликовано 615 общедоступных наборов данных
- 38% всего проиндексированного на английском языке
Исходный код доступен в открытых репозиториях [3]
Пока проект больше напоминает Common Crawl чем поиск Google или Bing, но даже так выглядит он любопытно, особенно когда будет доступно полноценное API для поиска.
Ссылки;
[1] https://openwebsearch.eu/
[2] https://home.cern/news/news/computing/european-project-make-web-search-more-open-and-ethical
[3] https://opencode.it4i.eu/openwebsearcheu-public/
#opendata #datasets #websearch #europe
🔥9❤2
В рубрике доступных открытых геоданных в России:
- Открытые данные Енисей-ГИС - каталог геоданных, включая Shape файлы и точки подключения к сервисам WMS в ГИС Красноярского края - Енисей ГИС. Набрров данных несколько десятков и несколько десятков слоёв карт доступных через WMS сервисы
- Геопортал СВКНИИ ДВО РАН каталог геоданных на базе Esri Geoportal, включает 34 ресурса в виде ссылок на слои карт в разных ArcGIS серверах.
- Общедоступный ArcGIS сервер Мурманской области - над ним ещё был геопортал, но он закрылся или переехал, а сервисы со слоями карт ArcGIS REST остались
- Геосервер Института водных и экологических проблем СО РАН - слои карт в виде WMS и WFS сервисов
- Геосервер ФГБУ "ДВНИГМИ" - геоданные по морским территориям Дальнего Востока, также WMS и WFS сервисы
- Геосервер Центра по проблемам экологии и продуктивности лесов РА - слои карты и WMS/WFS сервисы
#opendata #geodata #datasets #maps
- Открытые данные Енисей-ГИС - каталог геоданных, включая Shape файлы и точки подключения к сервисам WMS в ГИС Красноярского края - Енисей ГИС. Набрров данных несколько десятков и несколько десятков слоёв карт доступных через WMS сервисы
- Геопортал СВКНИИ ДВО РАН каталог геоданных на базе Esri Geoportal, включает 34 ресурса в виде ссылок на слои карт в разных ArcGIS серверах.
- Общедоступный ArcGIS сервер Мурманской области - над ним ещё был геопортал, но он закрылся или переехал, а сервисы со слоями карт ArcGIS REST остались
- Геосервер Института водных и экологических проблем СО РАН - слои карт в виде WMS и WFS сервисов
- Геосервер ФГБУ "ДВНИГМИ" - геоданные по морским территориям Дальнего Востока, также WMS и WFS сервисы
- Геосервер Центра по проблемам экологии и продуктивности лесов РА - слои карты и WMS/WFS сервисы
#opendata #geodata #datasets #maps
👌10✍1
В рубрике как это устроено у них каталог данных океанографических кампаний Франции [1] публикуемых Ifremer, исследовательским центром Франции по изучению океанов.
Всего более 355 тысяч наборов данных из которых общедоступны чуть менее 21 тысячи и остальные доступны по запросу. Самые ранние датасеты датируются 1909 годом.
Из плюсов;
- большой объём опубликованных наборов данных
- наличие API, хотя и недокументированного
- возможность поиска данных в выбранной географической территории
- свободные лицензии CC-BY на все открытые данные
- данные не только французских кампаний, но и иных финансируемых Францией или полученных от организаций партнеров
Из минусов:
- у датасетов нет DOI, нет постоянных ссылок
- выгрузка даже открытых данных идёт через "корзину", когда ты выбираешь датасеты, оставляешь контактные данные и лишь потом можешь скачать их
Ссылки:
[1] https://donnees-campagnes.flotteoceanographique.fr
#opendata #datasets #data #oceans #france
Всего более 355 тысяч наборов данных из которых общедоступны чуть менее 21 тысячи и остальные доступны по запросу. Самые ранние датасеты датируются 1909 годом.
Из плюсов;
- большой объём опубликованных наборов данных
- наличие API, хотя и недокументированного
- возможность поиска данных в выбранной географической территории
- свободные лицензии CC-BY на все открытые данные
- данные не только французских кампаний, но и иных финансируемых Францией или полученных от организаций партнеров
Из минусов:
- у датасетов нет DOI, нет постоянных ссылок
- выгрузка даже открытых данных идёт через "корзину", когда ты выбираешь датасеты, оставляешь контактные данные и лишь потом можешь скачать их
Ссылки:
[1] https://donnees-campagnes.flotteoceanographique.fr
#opendata #datasets #data #oceans #france
✍4❤2
В рубрике как это устроено у них, согласно реестру Dateno в Великобритании не менее 174 каталогов данных создано университетами и другими исследовательскими центрами для публикации исследовательских данных. Большинство из них используют для этого сервис Figshare и такие продукты как Elsvier Pure и ePrints. В большинстве случаев публикация данных сочетается с раскрытием других результатов научной деятельности: статьями, изображениями, приложениями к статьям, книгами и так далее.
Это больше чем общее число каталогов данных во многих странах. Пока лишь малая их часть, 13 каталогов индексируется в Dateno где собрано чуть менее 140 тысяч наборов данных поскольку значительная часть этих каталогов не предоставляют простых интерфейсов для индексирования данных. Figshare - это коммерческий провайдер, а многие другие каталоги поддерживают только стандарт OAI-PHM имеющий существенные ограничения, он не позволяет индексировать записи определённого типа (dataset) и не даёт простой возможности индексации ресурсов (файлов) связанных с наборами данных.
Это не является ограничением для таких агрегаторов как OpenAIRE поскольку они собирают все результаты научной деятельности, но ограничивает Dateno индексация в котором ограничена только наборами данных.
Второй важный фактор - это то что в последние годы многие научные данные загружаются сразу в облачные сервисы вроде data.mendeley.com или zenodo.org, а в институциональных репозиториях указаны лишь ссылки на них и, опять же, отсутствуют ссылки на файлы, остаются только ссылки на карточки датасетов в других ресурсах.
Однако даже при этом цифры в Dateno сопоставимы с индексом OpenAIRE где к Великобритании отнесены 168 тысяч наборов данных, но и среди них многое что помечено как "Dataset" там является просто цифровыми объектами отличающимися от научных статей, например, фотографии и презентации.
Можно было бы OpenAIRE использовать как референсный ориентир при индексировании наборов данных, но и он, увы, сильно неполон.
По моим оценкам всего в Великобритании от 300 до 500 тысяч исследовательских наборов данных рассеянных по сотням репозиториям научных данных и облачным сервисам. Постепенно они будут проиндексированы в Dateno, а пока можно констатировать что индексировать каталоги открытых данных и базы статистики гораздо проще в плане количества проиндексированных наборов данных.
#thoughts #dateno #datasets
Это больше чем общее число каталогов данных во многих странах. Пока лишь малая их часть, 13 каталогов индексируется в Dateno где собрано чуть менее 140 тысяч наборов данных поскольку значительная часть этих каталогов не предоставляют простых интерфейсов для индексирования данных. Figshare - это коммерческий провайдер, а многие другие каталоги поддерживают только стандарт OAI-PHM имеющий существенные ограничения, он не позволяет индексировать записи определённого типа (dataset) и не даёт простой возможности индексации ресурсов (файлов) связанных с наборами данных.
Это не является ограничением для таких агрегаторов как OpenAIRE поскольку они собирают все результаты научной деятельности, но ограничивает Dateno индексация в котором ограничена только наборами данных.
Второй важный фактор - это то что в последние годы многие научные данные загружаются сразу в облачные сервисы вроде data.mendeley.com или zenodo.org, а в институциональных репозиториях указаны лишь ссылки на них и, опять же, отсутствуют ссылки на файлы, остаются только ссылки на карточки датасетов в других ресурсах.
Однако даже при этом цифры в Dateno сопоставимы с индексом OpenAIRE где к Великобритании отнесены 168 тысяч наборов данных, но и среди них многое что помечено как "Dataset" там является просто цифровыми объектами отличающимися от научных статей, например, фотографии и презентации.
Можно было бы OpenAIRE использовать как референсный ориентир при индексировании наборов данных, но и он, увы, сильно неполон.
По моим оценкам всего в Великобритании от 300 до 500 тысяч исследовательских наборов данных рассеянных по сотням репозиториям научных данных и облачным сервисам. Постепенно они будут проиндексированы в Dateno, а пока можно констатировать что индексировать каталоги открытых данных и базы статистики гораздо проще в плане количества проиндексированных наборов данных.
#thoughts #dateno #datasets
✍3👌3
242 миллиарда токенов, 384 миллиона страниц, 983 тысячи книг на 254 языках в новом наборе данных для машинного обучения Institutional Books 1.0 [1] опубликованном Библиотекой Гарварда на HuggingFace.
Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.
К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.
Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300
#opendata #datasets #data #ai
Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.
К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.
Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300
#opendata #datasets #data #ai
🔥15
Ещё один доступный источник общедоступных данных монитогринга погоды/климата. Инсталляция WIS 2.0 в Кыргызстане [1]. WIS 2.0 это открытый сервис агргегирующий данные из метеостанций страны и отдающий по стандартизированным протоколам OGC. Этот продукт с открытым кодом распространяет Всемирная метеорологическая организация и он развернут уже более чем в 35 странах мира.
Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.
Конкретно вы Кыргызстане данные собираются с 36 метеостанций.
На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]
Ссылки:
[1] http://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] http://wis2box.mecom.ru
#opendata #openapi #api #geodata #datasets #kyrgyzstan
Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.
Конкретно вы Кыргызстане данные собираются с 36 метеостанций.
На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]
Ссылки:
[1] http://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] http://wis2box.mecom.ru
#opendata #openapi #api #geodata #datasets #kyrgyzstan
👍5