Forwarded from Ivan Begtin (Ivan Begtin)
Я так часто участвую или организую в мероприятия в которых технологии неотделимы от госполитики/политики/GR/бизнес применения что немного отвык от больших технологических конференций. Так что с удовольствием вчера прочитал свой доклад о каталогах данных на конференции Smart Data https://smartdataconf.ru в СПб и с удовольствием слушаю других выступающих.
Могу сказать что это, конечно, особый кайф рассказывать про интересные задачи и их сложные решения. А рассказывал я про каталог данных DataCrafter https://data.apicrafter.ru и то как туда загружаются данные и как они используются и с какими проблемами приходится сталкиваться.
Например, одна из проблем - это не-плоские данные. С этими данными сложно работать "классическими" инструментами обработки данных и data pipelines вроде dbt, airflow, meltano и тд.
Другая проблема в том что если продолжать грузить данные как это делается сейчас - одна таблица-одна коллекция, то скоро упираешься в ограничение в 24 тысячи таблиц на один экземпляр MongoDB. Поэтому до сих пор в каталог не загружено около 15 тысяч наборов данных которые можно загрузить одним махом, но надо менять архитектуру хранения данных.
Уже после конференции я расскажу подробнее об архитектуре каталога, скорее всего в форме большого лонгрида у себя в блоге https://begtin.tech или в рассылке https://begtin.substack.com
#data #datacatalogs
Могу сказать что это, конечно, особый кайф рассказывать про интересные задачи и их сложные решения. А рассказывал я про каталог данных DataCrafter https://data.apicrafter.ru и то как туда загружаются данные и как они используются и с какими проблемами приходится сталкиваться.
Например, одна из проблем - это не-плоские данные. С этими данными сложно работать "классическими" инструментами обработки данных и data pipelines вроде dbt, airflow, meltano и тд.
Другая проблема в том что если продолжать грузить данные как это делается сейчас - одна таблица-одна коллекция, то скоро упираешься в ограничение в 24 тысячи таблиц на один экземпляр MongoDB. Поэтому до сих пор в каталог не загружено около 15 тысяч наборов данных которые можно загрузить одним махом, но надо менять архитектуру хранения данных.
Уже после конференции я расскажу подробнее об архитектуре каталога, скорее всего в форме большого лонгрида у себя в блоге https://begtin.tech или в рассылке https://begtin.substack.com
#data #datacatalogs
В каталог DataCrafter загружены данные каталога справочников и классификаторов Минздрава РФ nsi.rosminzdrav.ru, это 1520 справочников помещенных в группы Справочники и классификаторы и Медицина. Их совокупный объём составляет более 7 гигабайт.
Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.
Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей
В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.
#opendata #datacatalogs #medicine #data #datasets
Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.
Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей
В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.
#opendata #datacatalogs #medicine #data #datasets
DataCrafter
Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем (10-й пересмотр, том…
<p><span style="color:black">Данный справочник является электронным представлением </span><span style="color:black">XX</span> <span style="color:black">класса Тома 3 Международной статистической классификации болезней и проблем, связанных со здоровьем, и…