Ivan Begtin
8.1K subscribers
1.97K photos
3 videos
102 files
4.68K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Ещё один общедоступный каталог данных для машинного обучения, на сей раз от DagsHub [1]. Я про этот стартап писал примерно 1.5 года назад и за это время у них прибавилось пользователей и появился каталог данных для машинного обучения, встроенный прямо в платформу. Каталог любопытный, но как-то с совсем скудным набором метаданных и доступом к данным через их библиотеку и как хранимым на S3.

В целом непонятны преимущества перед Kaggle или HuggingFace с точки зрения именно каталога данных, но полезным может быть и в такой форме.

В целом в реестре каталогов данных по всему миру у меня собрано уже 12 каталогов для машинного обучения. Это немного, учитывая что всего в реестре ожидается 3000+ каталогов данных, но заметно, если переводить цифры в объём хранимых данных и их влияние.

Ссылки:
[1] https://dagshub.com/datasets/

#opendata #machinelearning #datacatalogs
- автоматизация обогащения данных, также напрямую зависит от задач по пониманию данных. Если мы знаем семантические типы данных то можем автоматически данные обогатить. Например, в данных есть коды стран, мы можем автоматически обогатить датасет информацией о макрорегионе, о размере территории, численности жителей, GDP, уровню дохода и тд. Особенно это важно при автоматизации визуализации данных, это резко сокращает время подготовки данных для дата аналитиков и дата журналистов.
- мэтчинг записей, очень распространённая задача связанная с данными об организациях и / или людях и/или адресах, недвижимости, имуществе и так далее. Это необходимость сопоставлять записи по наборам идентификаторов, не всегда нормализованных. Задача практическая во всех продуктах связанных с комплаенсом и анализе конкурентов.
- Автоматическая визуализация данных. Зависит от многих задач по пониманию данных, но даже когда и если известны типы полей и структура файла, отдельная задача в том как автоматически визуализировать датасет наиболее наглядным образом. Как сузить зону отображения для геоданных. Как лучше всего визуализировать статистические данные. Как визуализировать не статистические. Как избежать "перегрузки изображения" и ещё многое другое. Это задачи Auto-BI, понемногу решаются в частных случаев, и пока не решены в общем.

Кроме того ещё ещё немало ML задач в таких направлениях как обнаружение данных, извлечение данных, поиск данных и ещё многое другое, об этом я ещё думаю и напишу в одном из последующих постов.

Лично для себя, когда я смотрю на ML и data science то меня цепляют только вот такие задачи. Не самого прямого практического применения (это не распознавание людей или распознавание речи, к примеру), а именно в применении к данным как предмету исследований, а не как инструменту исследований.

#opendata #data #datascience #ml #machinelearning