Пока все засматриваются на визуализацию невидимой инфраструктуры интернета от Тайлера Морган-Уолла, представляем подборку источников данных о мобильных операторах и связи в России:
— Вышки сотовых операторов на основе данных OpenCellid (https://opencellid.org). Набор данных поможет сделать карту покрытия мобильной связи по операторам. Ссылка на датасет: https://data.apicrafter.ru/packages/opencellid
— Точки продаж Мегафон
https://data.apicrafter.ru/packages/megaphonsalespoints
— Точки продаж МТС
https://data.apicrafter.ru/packages/mtssalespoints
— Точки продаж Теле2
https://data.apicrafter.ru/packages/tele2salespoints
— Точки продаж Yota
https://data.apicrafter.ru/packages/yotasalespoints
— Реестр лицензий в области связи
https://data.apicrafter.ru/packages/rknliccomm
— Реестр операторов, занимающих существенное положение в сети связи общего пользования
https://data.apicrafter.ru/packages/rknsigntele
Больше открытых данных на другие темы вы найдете на портале DataCrafter: https://data.apicrafter.
— Вышки сотовых операторов на основе данных OpenCellid (https://opencellid.org). Набор данных поможет сделать карту покрытия мобильной связи по операторам. Ссылка на датасет: https://data.apicrafter.ru/packages/opencellid
— Точки продаж Мегафон
https://data.apicrafter.ru/packages/megaphonsalespoints
— Точки продаж МТС
https://data.apicrafter.ru/packages/mtssalespoints
— Точки продаж Теле2
https://data.apicrafter.ru/packages/tele2salespoints
— Точки продаж Yota
https://data.apicrafter.ru/packages/yotasalespoints
— Реестр лицензий в области связи
https://data.apicrafter.ru/packages/rknliccomm
— Реестр операторов, занимающих существенное положение в сети связи общего пользования
https://data.apicrafter.ru/packages/rknsigntele
Больше открытых данных на другие темы вы найдете на портале DataCrafter: https://data.apicrafter.
— Insomnia — оптимизированный клиент API для отправления запросов REST, SOAP, GraphQL и gRPC.
— Ain — это терминальный клиент HTTP API. Альтернатива дата-платформам Postman, Paw и Insomnia. Функциональность: гибкая организация API с помощью файлов и папок; использование shell-скриптов и исполняемых файлов для общих задач; легко делиться результатами с помощью командной строки curl, wget или httpie.
— FastAPI — это быстрый веб-фреймворк для создания API с Python 3.6+ на основе стандартных подсказок типов Python. Основан на открытых стандартах API: OpenAPI (ранее известный как Swagger) и JSON Schema.
— SQLModel — это библиотека для взаимодействия с базами данных SQL с помощью кода Python. Основана на Pydantic и SQLAlchemy.
— Альтернатива Airtable с открытым исходным кодом. Превращает базу данных в MySQL, PostgreSQL, SQL Server или SQLite в в электронную таблицу. Имеет внутри программные API для REST и GraphQL. Удобна для создания собственных автоматизаций.
— Ain — это терминальный клиент HTTP API. Альтернатива дата-платформам Postman, Paw и Insomnia. Функциональность: гибкая организация API с помощью файлов и папок; использование shell-скриптов и исполняемых файлов для общих задач; легко делиться результатами с помощью командной строки curl, wget или httpie.
— FastAPI — это быстрый веб-фреймворк для создания API с Python 3.6+ на основе стандартных подсказок типов Python. Основан на открытых стандартах API: OpenAPI (ранее известный как Swagger) и JSON Schema.
— SQLModel — это библиотека для взаимодействия с базами данных SQL с помощью кода Python. Основана на Pydantic и SQLAlchemy.
— Альтернатива Airtable с открытым исходным кодом. Превращает базу данных в MySQL, PostgreSQL, SQL Server или SQLite в в электронную таблицу. Имеет внутри программные API для REST и GraphQL. Удобна для создания собственных автоматизаций.
— Free Bible API. Бесплатное API для получения данных из Библии на разных языках. Все ответы возвращаются в формате JSON. Можно запросить определенные сущности: конкретный перевод, стих и т.д. Есть документация. Ссылка: https://freebibleapi.com
— Проект OPUS — это пополняемый корпус текстов с параллельным переводом (parallel text) с открытым исходным кодом. Имеет публичное API. Параллельные корпуса текстов — это совокупности текстов, переводы которых уже согласованы друг с другом, как правило, предложение за предложением. Например, это параллельный корпус Организации Объединенных Наций (ООН) (https://conferences.unite.un.org/uncorpus), который состоит из официальных отчетов и других парламентских документов — все они являются общественным достоянием. Ссылка: https://opus.nlpl.eu.
— Open Library — это открытый, редактируемый библиотечный каталог, создающий веб-страницу для каждой когда-либо опубликованной книги. Есть открытое API. Карточка книги содержит информацию: тема, название, автор, издание и т.д. Ссылка: https://openlibrary.org/
— Harry Potter API — база данных всех персонажей, домов и заклинаний из вселенной о Гарри Поттере. Ссылка: https://peritract.github.io/2020/05/31/harry-potter/
— The One API — это API c доступом к базе данных о вселенной «Властелин колец». Проект открывает доступ к JSON-формату данных о книгах, персонажах, фильмах и цитатах. Есть документация. Ссылка: https://the-one-api.dev
Больше открытых данных на другие темы вы найдете на портале DataCrafter: https://data.apicrafter.ru
— Проект OPUS — это пополняемый корпус текстов с параллельным переводом (parallel text) с открытым исходным кодом. Имеет публичное API. Параллельные корпуса текстов — это совокупности текстов, переводы которых уже согласованы друг с другом, как правило, предложение за предложением. Например, это параллельный корпус Организации Объединенных Наций (ООН) (https://conferences.unite.un.org/uncorpus), который состоит из официальных отчетов и других парламентских документов — все они являются общественным достоянием. Ссылка: https://opus.nlpl.eu.
— Open Library — это открытый, редактируемый библиотечный каталог, создающий веб-страницу для каждой когда-либо опубликованной книги. Есть открытое API. Карточка книги содержит информацию: тема, название, автор, издание и т.д. Ссылка: https://openlibrary.org/
— Harry Potter API — база данных всех персонажей, домов и заклинаний из вселенной о Гарри Поттере. Ссылка: https://peritract.github.io/2020/05/31/harry-potter/
— The One API — это API c доступом к базе данных о вселенной «Властелин колец». Проект открывает доступ к JSON-формату данных о книгах, персонажах, фильмах и цитатах. Есть документация. Ссылка: https://the-one-api.dev
Больше открытых данных на другие темы вы найдете на портале DataCrafter: https://data.apicrafter.ru
Forwarded from Это разве аналитика?
API - как много в этом слове)
В рамках стажировки у Николая @leftjoin осваиваю API для получения данных с разных сайтов. Очень интересно, много нового, времени не хватает. Но, как говорится, no pain - no gain))))
Мои выстраданные рекомендации тем, кто только вступает на этот тернистый путь:
1. Не забывайте ставить задержку (time.sleep хотя бы на 1-2 сек) между каждым вызовом функций API. Скрипт будет работать медленнее, но зато не забанят)
2. Сохраняйте дамп запрошенной информации на диск. В питоне для этого есть классная библиотека json. Просто в некоторых API есть дневная квота на вызов функций. Например, 1 вызов 1 функции стоит 1 юнит, а всего на сутки дается 10000 юнитов. Поверьте, при отладке скриптов юниты так и улетают) Если вдруг потребовалось собрать новые данные из полей, то использование уже сохраненного дампа будет и быстрее, и сохранит дневную квоту.
В целом разобраться с работой механизма API можно в этом материале. Ну и не забывайте про справку для каждого интересующего вас сайта. И конечно же stackoverflow в помощь)
Очень интересно услышать о вашем опыте работы с API. Помните, как все начиналось?
В рамках стажировки у Николая @leftjoin осваиваю API для получения данных с разных сайтов. Очень интересно, много нового, времени не хватает. Но, как говорится, no pain - no gain))))
Мои выстраданные рекомендации тем, кто только вступает на этот тернистый путь:
1. Не забывайте ставить задержку (time.sleep хотя бы на 1-2 сек) между каждым вызовом функций API. Скрипт будет работать медленнее, но зато не забанят)
2. Сохраняйте дамп запрошенной информации на диск. В питоне для этого есть классная библиотека json. Просто в некоторых API есть дневная квота на вызов функций. Например, 1 вызов 1 функции стоит 1 юнит, а всего на сутки дается 10000 юнитов. Поверьте, при отладке скриптов юниты так и улетают) Если вдруг потребовалось собрать новые данные из полей, то использование уже сохраненного дампа будет и быстрее, и сохранит дневную квоту.
В целом разобраться с работой механизма API можно в этом материале. Ну и не забывайте про справку для каждого интересующего вас сайта. И конечно же stackoverflow в помощь)
Очень интересно услышать о вашем опыте работы с API. Помните, как все начиналось?
systems.education
■ [Перевод книги] Введение в API. Мини-курс и книга Брайана Кукси
Редактура Дениса Бескова и Артёма Стукалова
Каталог и озеро данных на базе MongoDB, собираем технологический стек по кусочкам
Сегодня в 18:30 Иван Бегтин выступит на конференции SmartData для дата-инженеров.
Доклад Ивана будет посвящён созданию каталогов и озер данных в проекте DataCrafter на базе MongoDB и больших разнородных общедоступных данных сложных форматов из неуправляемых источников.
Каталог включает такие реализованные возможности, как:
— автоматическое создание схемы данных;
— автоматическая классификация/идентификация типов пол (кадастровые номера, email, идентификаторы организаций, ссылки и т.д.);
— автоматизированное документирование;
— автоматическая оценка качества данных (в работе).
По ссылке доступна презентация доклада: https://smartdataconf.ru/talks/data-catalog-and-data-lake-based-on-mongodb-building-tech-stack-from-scratch.
Программа конференции на Хабре: https://habr.com/ru/company/jugru/blog/577864.
Сегодня в 18:30 Иван Бегтин выступит на конференции SmartData для дата-инженеров.
Доклад Ивана будет посвящён созданию каталогов и озер данных в проекте DataCrafter на базе MongoDB и больших разнородных общедоступных данных сложных форматов из неуправляемых источников.
Каталог включает такие реализованные возможности, как:
— автоматическое создание схемы данных;
— автоматическая классификация/идентификация типов пол (кадастровые номера, email, идентификаторы организаций, ссылки и т.д.);
— автоматизированное документирование;
— автоматическая оценка качества данных (в работе).
По ссылке доступна презентация доклада: https://smartdataconf.ru/talks/data-catalog-and-data-lake-based-on-mongodb-building-tech-stack-from-scratch.
Программа конференции на Хабре: https://habr.com/ru/company/jugru/blog/577864.
SmartData 2025. Конференция по инженерии данных
SmartData 2025 — конференция по инженерии данных. Технические доклады о хранилищах данных, стриминге, data governance, архитектуре DWH и другом, применимые в работе дата-инженера.
Forwarded from Ivan Begtin (Ivan Begtin)
Я так часто участвую или организую в мероприятия в которых технологии неотделимы от госполитики/политики/GR/бизнес применения что немного отвык от больших технологических конференций. Так что с удовольствием вчера прочитал свой доклад о каталогах данных на конференции Smart Data https://smartdataconf.ru в СПб и с удовольствием слушаю других выступающих.
Могу сказать что это, конечно, особый кайф рассказывать про интересные задачи и их сложные решения. А рассказывал я про каталог данных DataCrafter https://data.apicrafter.ru и то как туда загружаются данные и как они используются и с какими проблемами приходится сталкиваться.
Например, одна из проблем - это не-плоские данные. С этими данными сложно работать "классическими" инструментами обработки данных и data pipelines вроде dbt, airflow, meltano и тд.
Другая проблема в том что если продолжать грузить данные как это делается сейчас - одна таблица-одна коллекция, то скоро упираешься в ограничение в 24 тысячи таблиц на один экземпляр MongoDB. Поэтому до сих пор в каталог не загружено около 15 тысяч наборов данных которые можно загрузить одним махом, но надо менять архитектуру хранения данных.
Уже после конференции я расскажу подробнее об архитектуре каталога, скорее всего в форме большого лонгрида у себя в блоге https://begtin.tech или в рассылке https://begtin.substack.com
#data #datacatalogs
Могу сказать что это, конечно, особый кайф рассказывать про интересные задачи и их сложные решения. А рассказывал я про каталог данных DataCrafter https://data.apicrafter.ru и то как туда загружаются данные и как они используются и с какими проблемами приходится сталкиваться.
Например, одна из проблем - это не-плоские данные. С этими данными сложно работать "классическими" инструментами обработки данных и data pipelines вроде dbt, airflow, meltano и тд.
Другая проблема в том что если продолжать грузить данные как это делается сейчас - одна таблица-одна коллекция, то скоро упираешься в ограничение в 24 тысячи таблиц на один экземпляр MongoDB. Поэтому до сих пор в каталог не загружено около 15 тысяч наборов данных которые можно загрузить одним махом, но надо менять архитектуру хранения данных.
Уже после конференции я расскажу подробнее об архитектуре каталога, скорее всего в форме большого лонгрида у себя в блоге https://begtin.tech или в рассылке https://begtin.substack.com
#data #datacatalogs
Большое обновление в данных DataCrafter'а. В каталог загружены 1514 наборов данных о климате и погоде из Единой государственной системы информации об обстановке в Мировом океане (ЕСИМО). Все данные были преобразованы в унифицированные форматы и доступны в каталоге как открытые данные через API или в виде сборок/слепков данных.
Данные загружены вместе с описанием каждого поля, сведения доступны в разделе "Документация" к каждой таблице. Например, документация к набору данных Оперативные данные о сопутствующих метеонаблюдениях, передаваемых по коду FM-18 X BUOY. Период хранения в БД.
Несмотря на то что многие данные в системе ЕСИМО являются архивными, они могут пригодиться исследователям работающим с данными о мировом океане, климатологам, специалистам по работе с погодными данными и данными экономики моря.
Для нас загрузка такого числа наборов данных оказалась вызовом по причине числа наборов данных, всё таки 1514 наборов из системы ЕСИМО - это почти в 4 раза больше 393 наборов данных которые ранее к нам были загружены и сейчас интерфейс уже недостаточно удобен для работы с таким числом наборов данных, но мы уже работаем над его доработкой.
Второй вызов был в том что данные имеют свою специфику и текущие алгоритмы распознавания типов данных определяют типы данных наборов данных из ЕСИМО достаточно ограниченно. В ближайшее время начнётся работа по классификации этих полей и доработке алгоритмов под эту задачу.
#datasets #esimo #climate #weather #datacrafter #data
Данные загружены вместе с описанием каждого поля, сведения доступны в разделе "Документация" к каждой таблице. Например, документация к набору данных Оперативные данные о сопутствующих метеонаблюдениях, передаваемых по коду FM-18 X BUOY. Период хранения в БД.
Несмотря на то что многие данные в системе ЕСИМО являются архивными, они могут пригодиться исследователям работающим с данными о мировом океане, климатологам, специалистам по работе с погодными данными и данными экономики моря.
Для нас загрузка такого числа наборов данных оказалась вызовом по причине числа наборов данных, всё таки 1514 наборов из системы ЕСИМО - это почти в 4 раза больше 393 наборов данных которые ранее к нам были загружены и сейчас интерфейс уже недостаточно удобен для работы с таким числом наборов данных, но мы уже работаем над его доработкой.
Второй вызов был в том что данные имеют свою специфику и текущие алгоритмы распознавания типов данных определяют типы данных наборов данных из ЕСИМО достаточно ограниченно. В ближайшее время начнётся работа по классификации этих полей и доработке алгоритмов под эту задачу.
#datasets #esimo #climate #weather #datacrafter #data
DataCrafter
Климат и погода
Климатические и погодные данные включая данные Росгидромета, данные об обстановке мирового океана, данные измерений погодных станций
Набор данных «Справочник регионов РФ и связанных с ними географических объектов»
Ссылка: https://data.apicrafter.ru/packages/rusregions/tables.
Режим доступа: открытые данные.
Набор данных включает справочник регионов, границ регионов с другими странами, федеральные округа и все города в Российской Федерации. Связанные с набором данных таблицы: субъекты РФ, федеральные округа, военные округа, экономические регионы, границы и страны, города, моря, трубопроводы, железные дороги, федеральные трассы.
Для каждой таблицы опубликована схема данных, документация и пример 100 записей в формате JSON. В подразделе «Версии и сборки» вы можете скачать целый дамп данных в формате JSON или BSON. Если вам нужна укороченная версия датасета с определенными атрибутами, например, в формате CSV — вы можете подключиться к API DataCrafter и получить нужный вам набор данных.
Больше открытых данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru.
Ссылка: https://data.apicrafter.ru/packages/rusregions/tables.
Режим доступа: открытые данные.
Набор данных включает справочник регионов, границ регионов с другими странами, федеральные округа и все города в Российской Федерации. Связанные с набором данных таблицы: субъекты РФ, федеральные округа, военные округа, экономические регионы, границы и страны, города, моря, трубопроводы, железные дороги, федеральные трассы.
Для каждой таблицы опубликована схема данных, документация и пример 100 записей в формате JSON. В подразделе «Версии и сборки» вы можете скачать целый дамп данных в формате JSON или BSON. Если вам нужна укороченная версия датасета с определенными атрибутами, например, в формате CSV — вы можете подключиться к API DataCrafter и получить нужный вам набор данных.
Больше открытых данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru.
Forwarded from Ivan Begtin (Ivan Begtin)
Я сейчас гружу в APICrafter кучу данных с сайта Росстата [1] в раздел "Статистика" [2] и чуть позже сделаем официальный пост от проекта с тем сколько новых наборов данных появилось, а пока скажу вам друзья что всё что мы слышали или слышим про качество работы с открытыми данными у Росстата - это сказки.
Чтобы было понятно:
- с сайта Росстата скачано 1547 наборов данных
- у 742 наборов однотипная структура из CSV файлов с полями: area,gender,urban,value (все их можно было опубликовать как один набор данных)
- ещё 617 наборов данных это однотипные показатели в формате SDMX без документации, также их можно было опубликовать как один набор данных
- надо ли объяснять что это получается куча мелких файлов, эдакое "необоснованное дробление данных" (c) ради числа наборов данных
- половина данных опубликовано как CSV, другая половина как XML. Файлы CSV имеют ту особенность что половина с разделителем запятой (,), половина с разделителем (;).
- у 20 наборов данных у файлов CSV отсутствуют заголовки
- итого, если делать всё по уму, то у Росстата на сайте было бы всего 188 наборов данных. А если ещё объединить в один датасет вакансии всех террорганов Росстата то и всего то около 103-105 наборов данных. Чувствуете разницу?
- некоторые из наборов данных имеют расширение csv, а внутри это zip файлы. А иногда это zip файлы внутри которых файлы csv которые... на самом деле не csv, а тоже zip файлы
- около 30% опубликованных CSV файлов в кодировке windows-1251, остальные в UTF-8, нигде при этом не указано что в каком виде.
- несколько наборов данных XML - это дампы показателей из внутренней BI системы. Без документации.
В итоге пришлось дорабатывать код подготовки пакетов данных для автоматического распознавания кодировки, разделителей и выявления CSV файлов без заголовков. Это не так уж сложно, но окунаться в ад работы с плохоформатированными CSV файлами - это то ещё удовольствие.
А в качестве послесловия я добавлю что это ещё далеко не самый худший ФОИВ по опубликованию данных. Да, много где ситуация сильно хуже, но Росстат тоже, умеет удивлять отсутствием управления данными и таким вот дроблением датасетов на кучу мелких наборов данных.
Как бы то ни было, все они будут у нас в каталоге сегодня уже к концу дня. И, похоже, вводить критерии качества каталогов данных важно не меньше качества содержания наборов данных.
Ссылки:
[1] https://rosstat.gov.ru/opendata
[2] https://data.apicrafter.ru/topics/statistics
#opendata #datasets
Чтобы было понятно:
- с сайта Росстата скачано 1547 наборов данных
- у 742 наборов однотипная структура из CSV файлов с полями: area,gender,urban,value (все их можно было опубликовать как один набор данных)
- ещё 617 наборов данных это однотипные показатели в формате SDMX без документации, также их можно было опубликовать как один набор данных
- надо ли объяснять что это получается куча мелких файлов, эдакое "необоснованное дробление данных" (c) ради числа наборов данных
- половина данных опубликовано как CSV, другая половина как XML. Файлы CSV имеют ту особенность что половина с разделителем запятой (,), половина с разделителем (;).
- у 20 наборов данных у файлов CSV отсутствуют заголовки
- итого, если делать всё по уму, то у Росстата на сайте было бы всего 188 наборов данных. А если ещё объединить в один датасет вакансии всех террорганов Росстата то и всего то около 103-105 наборов данных. Чувствуете разницу?
- некоторые из наборов данных имеют расширение csv, а внутри это zip файлы. А иногда это zip файлы внутри которых файлы csv которые... на самом деле не csv, а тоже zip файлы
- около 30% опубликованных CSV файлов в кодировке windows-1251, остальные в UTF-8, нигде при этом не указано что в каком виде.
- несколько наборов данных XML - это дампы показателей из внутренней BI системы. Без документации.
В итоге пришлось дорабатывать код подготовки пакетов данных для автоматического распознавания кодировки, разделителей и выявления CSV файлов без заголовков. Это не так уж сложно, но окунаться в ад работы с плохоформатированными CSV файлами - это то ещё удовольствие.
А в качестве послесловия я добавлю что это ещё далеко не самый худший ФОИВ по опубликованию данных. Да, много где ситуация сильно хуже, но Росстат тоже, умеет удивлять отсутствием управления данными и таким вот дроблением датасетов на кучу мелких наборов данных.
Как бы то ни было, все они будут у нас в каталоге сегодня уже к концу дня. И, похоже, вводить критерии качества каталогов данных важно не меньше качества содержания наборов данных.
Ссылки:
[1] https://rosstat.gov.ru/opendata
[2] https://data.apicrafter.ru/topics/statistics
#opendata #datasets
ssl.rosstat.gov.ru
Федеральная служба государственной статистики
Иван Бегтин выступил на конференции «Региональные данные», посвященной роли данных и моделей в развитии территорий России, с презентацией проекта DataCrafter (https://data.apicrafter.ru/) и рассказал о возможностях и технических особенностях системы.
Видеозапись: https://youtu.be/ccz7ysPHVrA.
Презентация: https://clck.ru/Y6rcx.
Видеозапись: https://youtu.be/ccz7ysPHVrA.
Презентация: https://clck.ru/Y6rcx.
В каталог DataCrafter загружены свежие данные из нескольких крупных государственных каталогов данных. Это данные с портала открытых данных г. Москвы 874 набора собранные в одноименную группу г. Москва в каталоге, а также данные из системы справочников ФФОМС России, 91 наборов данных помещенных в группы Справочники и классификаторы и Медицина.
Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.
Из интересных данных, например:
- Единый реестр медицинских организаций - это чуть менее чем 20 тысяч организаций
- Адресный реестр города Москвы - 440 тысяч записей
Напомню, что все данные загружаемые в DataCrafter проходят преобразование из изначальных форматов в формат JSON/BSON, хранятся внутри MongoDB и доступны через унифицированные выгрузки и API.
На сегодня в Datacrafter'е собрано:
- 4392 набора данных с 4534 таблицами
- 408 миллионов записей
- 5258 файлов экспорта (сборок данных)
- 281.7 гигабайт структурированных данных в СУБД
- более 60 тысяч полей
- из которых недокументировано 25 тысяч, а классифицировано 9.7 тысяч
Вскоре в каталог DataCrafter'а будут загружены данные из других каталогов государственных данных, как федеральных, так и российских региональных. Это уже требует реорганизации интерфейса и выгрузок данных, как минимум, удобного поиска по всем наборам, а не только по их названиям как сейчас.
#data #classifiers #moscow #catalogs #datacatalog
Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.
Из интересных данных, например:
- Единый реестр медицинских организаций - это чуть менее чем 20 тысяч организаций
- Адресный реестр города Москвы - 440 тысяч записей
Напомню, что все данные загружаемые в DataCrafter проходят преобразование из изначальных форматов в формат JSON/BSON, хранятся внутри MongoDB и доступны через унифицированные выгрузки и API.
На сегодня в Datacrafter'е собрано:
- 4392 набора данных с 4534 таблицами
- 408 миллионов записей
- 5258 файлов экспорта (сборок данных)
- 281.7 гигабайт структурированных данных в СУБД
- более 60 тысяч полей
- из которых недокументировано 25 тысяч, а классифицировано 9.7 тысяч
Вскоре в каталог DataCrafter'а будут загружены данные из других каталогов государственных данных, как федеральных, так и российских региональных. Это уже требует реорганизации интерфейса и выгрузок данных, как минимум, удобного поиска по всем наборам, а не только по их названиям как сейчас.
#data #classifiers #moscow #catalogs #datacatalog
DataCrafter
Город Москва
Данные органов власти и организаций города Москвы и данные о Москве, организациях Москвы, статистике и инфраструктуре
В каталог DataCrafter загружены данные каталога справочников и классификаторов Минздрава РФ nsi.rosminzdrav.ru, это 1520 справочников помещенных в группы Справочники и классификаторы и Медицина. Их совокупный объём составляет более 7 гигабайт.
Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.
Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей
В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.
#opendata #datacatalogs #medicine #data #datasets
Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.
Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей
В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.
#opendata #datacatalogs #medicine #data #datasets
DataCrafter
Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем (10-й пересмотр, том…
<p><span style="color:black">Данный справочник является электронным представлением </span><span style="color:black">XX</span> <span style="color:black">класса Тома 3 Международной статистической классификации болезней и проблем, связанных со здоровьем, и…
Очень хорошо что открытые API появляются и у государственных проектов. Открытые документированные API, что немаловажно
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
В проекте СП РФ "Госрасходы" теперь доступен открытый и документированный API с данными о расходах федерального бюджета.
Мы продолжаем не только публиковать машиночитаемые открытые данные по госфинансам, но и расширять наборы данных, предоставляемых по API.
Теперь по API можно получать не только данные о контрактах, заказчиках, субсидиях, получателях субсидий и нацпроектах, но и о расходах федерального бюджета.
API содержит:
- строки бюджета;
- расходы бюджета в разрезах ГРБС, разделов и подразделов, нацпроектов и госпрограмм;
- справочники, используемые в модуле "Бюджет" (справочник по разделам бюджета, перечень ГРБС, перечень госпрограмм и непрограммных направлений расходов, перечень нацпроектов, перечень видов расходов).
Документация и подробности тут: https://spending.gov.ru/pages/devs_api/
Мы продолжаем не только публиковать машиночитаемые открытые данные по госфинансам, но и расширять наборы данных, предоставляемых по API.
Теперь по API можно получать не только данные о контрактах, заказчиках, субсидиях, получателях субсидий и нацпроектах, но и о расходах федерального бюджета.
API содержит:
- строки бюджета;
- расходы бюджета в разрезах ГРБС, разделов и подразделов, нацпроектов и госпрограмм;
- справочники, используемые в модуле "Бюджет" (справочник по разделам бюджета, перечень ГРБС, перечень госпрограмм и непрограммных направлений расходов, перечень нацпроектов, перечень видов расходов).
Документация и подробности тут: https://spending.gov.ru/pages/devs_api/