Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Продолжая подводить итоги года, для меня лично в этом году важнейшим проектом был и останется в 2025 году - Dateno, поисковик по датасетам по всему миру который наша команда строила в 2024 году. Сейчас там 19 миллионов наборов данных, скоро будет больше, равно как и больше возможностей которые поисковик будет предоставлять.

Dateno, отчасти, возник спонтанно. Мне давно хотелось сделать большой проект на весь мир по открытым данным, но первоначально амбиции были только создать универсальный реестр всех дата-ресурсов (реестр каталогов данных), а далее так получилось что на их основе оказалось не так сложно построить поисковую машину.

За 2024 год удалось:
- проиндексировать более 19 миллионов датасетов
- подготовить харвестеры для более чем 15 типов порталов открытых данных, индикаторов и геоданных
- реализовать API доступное пользователям Dateno
- собрать внушительную базу пользователей
- подготовить всё необходимое для индексации ещё нескольких десятков миллионов наборов данных
- обогатить собранные карточки датасетов метаданными о странах, тематиках, правах на использование

Тут есть чем гордиться и много работы ещё предстоит.

1. Больше социально-экономических данных
.
Это касается индикаторов, временных рядов и иных данных которые чаще всего публикуются на порталах открытых данных и порталах индикаторов. Сейчас из запланированных крупных каталогов данных проиндексированы только около половины и дальше их будет больше.

Сейчас у Dateno есть небольшой уклон в такого рода данные поскольку они одни из наиболее востребованных и он может вырасти по мере индексации новых источников.

2. Значительно увеличить число наборов данных
Это очень простая задача если не беспокоиться о качестве данных, достаточно загрузить карточки датасетов из нескольких научных агрегаторов и это сразу добавить +20 миллионов наборов данных. Но, качество метаданных там ограничено только описанием, без ссылок на ресурсы к которым можно было бы обращаться напрямую. Такие датасеты несут куда меньше пользы для пользователей, хотя и из них в основном состоят поисковые индексы Google Dataset Search (GDS), OpenAIRE, BASE и ряда других поисковиков. Карточки датасетов без ресурсов позволяют резко нарастить индекс, но наличие ресурсов у карточки - это одна из наших внутренних метрик качества поискового индекса. Этот баланс качества и количества важен и он один из главных сдерживающих факторов роста индекса Dateno, тем не менее рост этот неизбежен.

3. Больше интеграционных возможностей

У Dateno уже есть API которым можно воспользоваться и далее это API будет развиваться в сторону его интеграции с инструментами для дата аналитиков и дата инженеров. Интеграция и API - это важные атрибуты любого сервиса, особенно для работы с данными. Невозможно всё придумать и сделать силами только одной команды и API позволяет другим улучшать и развивать свои продукты.

4. Больше возможностей

Сейчас Dateno позволяет только искать данные, но не проводить с ними какие-либо операции и это изменится. Не сразу и я не буду заранее говорить какие именно возможности появятся, но они будут.

Наша цель чтобы Dateno стал регулярным инструментом для каждого дата аналитика, дата инженера и дата сайентиста, так что работы ещё много)

#opendata #dateno #datasets #yearinreview