APICrafter

Пока все засматриваются на визуализацию невидимой инфраструктуры интернета от Тайлера Морган-Уолла, представляем подборку источников данных о мобильных операторах и связи в России:

— Вышки сотовых операторов на основе данных OpenCellid (https://opencellid.org). Набор данных поможет сделать карту покрытия мобильной связи по операторам. Ссылка на датасет: https://data.apicrafter.ru/packages/opencellid

— Точки продаж Мегафон
https://data.apicrafter.ru/packages/megaphonsalespoints

— Точки продаж МТС
https://data.apicrafter.ru/packages/mtssalespoints

— Точки продаж Теле2
https://data.apicrafter.ru/packages/tele2salespoints

— Точки продаж Yota
https://data.apicrafter.ru/packages/yotasalespoints

— Реестр лицензий в области связи
https://data.apicrafter.ru/packages/rknliccomm

— Реестр операторов, занимающих существенное положение в сети связи общего пользования
https://data.apicrafter.ru/packages/rknsigntele

Больше открытых данных на другие темы вы найдете на портале DataCrafter: https://data.apicrafter.

133 viewsedited 08:14

APICrafter

— Insomnia — оптимизированный клиент API для отправления запросов REST, SOAP, GraphQL и gRPC.

— Ain — это терминальный клиент HTTP API. Альтернатива дата-платформам Postman, Paw и Insomnia. Функциональность: гибкая организация API с помощью файлов и папок; использование shell-скриптов и исполняемых файлов для общих задач; легко делиться результатами с помощью командной строки curl, wget или httpie.

— FastAPI — это быстрый веб-фреймворк для создания API с Python 3.6+ на основе стандартных подсказок типов Python. Основан на открытых стандартах API: OpenAPI (ранее известный как Swagger) и JSON Schema.

— SQLModel — это библиотека для взаимодействия с базами данных SQL с помощью кода Python. Основана на Pydantic и SQLAlchemy.

— Альтернатива Airtable с открытым исходным кодом. Превращает базу данных в MySQL, PostgreSQL, SQL Server или SQLite в в электронную таблицу. Имеет внутри программные API для REST и GraphQL. Удобна для создания собственных автоматизаций.

227 views08:56

APICrafter

Digital-книжный червь: базы данных, корпуса текстов и API

104 views13:17

APICrafter

— Free Bible API. Бесплатное API для получения данных из Библии на разных языках. Все ответы возвращаются в формате JSON. Можно запросить определенные сущности: конкретный перевод, стих и т.д. Есть документация. Ссылка: https://freebibleapi.com

— Проект OPUS — это пополняемый корпус текстов с параллельным переводом (parallel text) с открытым исходным кодом. Имеет публичное API. Параллельные корпуса текстов — это совокупности текстов, переводы которых уже согласованы друг с другом, как правило, предложение за предложением. Например, это параллельный корпус Организации Объединенных Наций (ООН) (https://conferences.unite.un.org/uncorpus), который состоит из официальных отчетов и других парламентских документов — все они являются общественным достоянием. Ссылка: https://opus.nlpl.eu.

— Open Library — это открытый, редактируемый библиотечный каталог, создающий веб-страницу для каждой когда-либо опубликованной книги. Есть открытое API. Карточка книги содержит информацию: тема, название, автор, издание и т.д. Ссылка: https://openlibrary.org/

— Harry Potter API — база данных всех персонажей, домов и заклинаний из вселенной о Гарри Поттере. Ссылка: https://peritract.github.io/2020/05/31/harry-potter/

— The One API — это API c доступом к базе данных о вселенной «Властелин колец». Проект открывает доступ к JSON-формату данных о книгах, персонажах, фильмах и цитатах. Есть документация. Ссылка: https://the-one-api.dev

Больше открытых данных на другие темы вы найдете на портале DataCrafter: https://data.apicrafter.ru

242 views13:17

APICrafter

Forwarded from Это разве аналитика?

API - как много в этом слове)

В рамках стажировки у Николая @leftjoin осваиваю API для получения данных с разных сайтов. Очень интересно, много нового, времени не хватает. Но, как говорится, no pain - no gain))))

Мои выстраданные рекомендации тем, кто только вступает на этот тернистый путь:

1. Не забывайте ставить задержку (time.sleep хотя бы на 1-2 сек) между каждым вызовом функций API. Скрипт будет работать медленнее, но зато не забанят)

2. Сохраняйте дамп запрошенной информации на диск. В питоне для этого есть классная библиотека json. Просто в некоторых API есть дневная квота на вызов функций. Например, 1 вызов 1 функции стоит 1 юнит, а всего на сутки дается 10000 юнитов. Поверьте, при отладке скриптов юниты так и улетают) Если вдруг потребовалось собрать новые данные из полей, то использование уже сохраненного дампа будет и быстрее, и сохранит дневную квоту.

В целом разобраться с работой механизма API можно в этом материале. Ну и не забывайте про справку для каждого интересующего вас сайта. И конечно же stackoverflow в помощь)

Очень интересно услышать о вашем опыте работы с API. Помните, как все начиналось?

systems.education

■ [Перевод книги] Введение в API. Мини-курс и книга Брайана Кукси

Редактура Дениса Бескова и Артёма Стукалова

119 views18:47

APICrafter

Каталог и озеро данных на базе MongoDB, собираем технологический стек по кусочкам

Сегодня в 18:30 Иван Бегтин выступит на конференции SmartData для дата-инженеров.
Доклад Ивана будет посвящён созданию каталогов и озер данных в проекте DataCrafter на базе MongoDB и больших разнородных общедоступных данных сложных форматов из неуправляемых источников.

Каталог включает такие реализованные возможности, как:
— автоматическое создание схемы данных;
— автоматическая классификация/идентификация типов пол (кадастровые номера, email, идентификаторы организаций, ссылки и т.д.);
— автоматизированное документирование;
— автоматическая оценка качества данных (в работе).

По ссылке доступна презентация доклада: https://smartdataconf.ru/talks/data-catalog-and-data-lake-based-on-mongodb-building-tech-stack-from-scratch.

Программа конференции на Хабре: https://habr.com/ru/company/jugru/blog/577864.

SmartData 2025. Конференция по инженерии данных

SmartData 2025 — конференция по инженерии данных. Технические доклады о хранилищах данных, стриминге, data governance, архитектуре DWH и другом, применимые в работе дата-инженера.

118 views11:42

APICrafter

Forwarded from Ivan Begtin (Ivan Begtin)

Я так часто участвую или организую в мероприятия в которых технологии неотделимы от госполитики/политики/GR/бизнес применения что немного отвык от больших технологических конференций. Так что с удовольствием вчера прочитал свой доклад о каталогах данных на конференции Smart Data https://smartdataconf.ru в СПб и с удовольствием слушаю других выступающих.

Могу сказать что это, конечно, особый кайф рассказывать про интересные задачи и их сложные решения. А рассказывал я про каталог данных DataCrafter https://data.apicrafter.ru и то как туда загружаются данные и как они используются и с какими проблемами приходится сталкиваться.

Например, одна из проблем - это не-плоские данные. С этими данными сложно работать "классическими" инструментами обработки данных и data pipelines вроде dbt, airflow, meltano и тд.

Другая проблема в том что если продолжать грузить данные как это делается сейчас - одна таблица-одна коллекция, то скоро упираешься в ограничение в 24 тысячи таблиц на один экземпляр MongoDB. Поэтому до сих пор в каталог не загружено около 15 тысяч наборов данных которые можно загрузить одним махом, но надо менять архитектуру хранения данных.

Уже после конференции я расскажу подробнее об архитектуре каталога, скорее всего в форме большого лонгрида у себя в блоге https://begtin.tech или в рассылке https://begtin.substack.com

#data #datacatalogs

89 views08:01

APICrafter

Большое обновление в данных DataCrafter'а. В каталог загружены 1514 наборов данных о климате и погоде из Единой государственной системы информации об обстановке в Мировом океане (ЕСИМО). Все данные были преобразованы в унифицированные форматы и доступны в каталоге как открытые данные через API или в виде сборок/слепков данных.

Данные загружены вместе с описанием каждого поля, сведения доступны в разделе "Документация" к каждой таблице. Например, документация к набору данных Оперативные данные о сопутствующих метеонаблюдениях, передаваемых по коду FM-18 X BUOY. Период хранения в БД.

Несмотря на то что многие данные в системе ЕСИМО являются архивными, они могут пригодиться исследователям работающим с данными о мировом океане, климатологам, специалистам по работе с погодными данными и данными экономики моря.

Для нас загрузка такого числа наборов данных оказалась вызовом по причине числа наборов данных, всё таки 1514 наборов из системы ЕСИМО - это почти в 4 раза больше 393 наборов данных которые ранее к нам были загружены и сейчас интерфейс уже недостаточно удобен для работы с таким числом наборов данных, но мы уже работаем над его доработкой.

Второй вызов был в том что данные имеют свою специфику и текущие алгоритмы распознавания типов данных определяют типы данных наборов данных из ЕСИМО достаточно ограниченно. В ближайшее время начнётся работа по классификации этих полей и доработке алгоритмов под эту задачу.

#datasets #esimo #climate #weather #datacrafter #data

DataCrafter

Климат и погода

Климатические и погодные данные включая данные Росгидромета, данные об обстановке мирового океана, данные измерений погодных станций

1.9K views06:34

APICrafter

Набор данных «Справочник регионов РФ и связанных с ними географических объектов»

Ссылка: https://data.apicrafter.ru/packages/rusregions/tables.

Режим доступа: открытые данные.

Набор данных включает справочник регионов, границ регионов с другими странами, федеральные округа и все города в Российской Федерации. Связанные с набором данных таблицы: субъекты РФ, федеральные округа, военные округа, экономические регионы, границы и страны, города, моря, трубопроводы, железные дороги, федеральные трассы.

Для каждой таблицы опубликована схема данных, документация и пример 100 записей в формате JSON. В подразделе «Версии и сборки» вы можете скачать целый дамп данных в формате JSON или BSON. Если вам нужна укороченная версия датасета с определенными атрибутами, например, в формате CSV — вы можете подключиться к API DataCrafter и получить нужный вам набор данных.

Больше открытых данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru.

179 views14:44

APICrafter

Forwarded from Ivan Begtin (Ivan Begtin)

Я сейчас гружу в APICrafter кучу данных с сайта Росстата [1] в раздел "Статистика" [2] и чуть позже сделаем официальный пост от проекта с тем сколько новых наборов данных появилось, а пока скажу вам друзья что всё что мы слышали или слышим про качество работы с открытыми данными у Росстата - это сказки.

Чтобы было понятно:

- с сайта Росстата скачано 1547 наборов данных
- у 742 наборов однотипная структура из CSV файлов с полями: area,gender,urban,value (все их можно было опубликовать как один набор данных)
- ещё 617 наборов данных это однотипные показатели в формате SDMX без документации, также их можно было опубликовать как один набор данных
- надо ли объяснять что это получается куча мелких файлов, эдакое "необоснованное дробление данных" (c) ради числа наборов данных
- половина данных опубликовано как CSV, другая половина как XML. Файлы CSV имеют ту особенность что половина с разделителем запятой (,), половина с разделителем (;).
- у 20 наборов данных у файлов CSV отсутствуют заголовки
- итого, если делать всё по уму, то у Росстата на сайте было бы всего 188 наборов данных. А если ещё объединить в один датасет вакансии всех террорганов Росстата то и всего то около 103-105 наборов данных. Чувствуете разницу?
- некоторые из наборов данных имеют расширение csv, а внутри это zip файлы. А иногда это zip файлы внутри которых файлы csv которые... на самом деле не csv, а тоже zip файлы
- около 30% опубликованных CSV файлов в кодировке windows-1251, остальные в UTF-8, нигде при этом не указано что в каком виде.
- несколько наборов данных XML - это дампы показателей из внутренней BI системы. Без документации.

В итоге пришлось дорабатывать код подготовки пакетов данных для автоматического распознавания кодировки, разделителей и выявления CSV файлов без заголовков. Это не так уж сложно, но окунаться в ад работы с плохоформатированными CSV файлами - это то ещё удовольствие.

А в качестве послесловия я добавлю что это ещё далеко не самый худший ФОИВ по опубликованию данных. Да, много где ситуация сильно хуже, но Росстат тоже, умеет удивлять отсутствием управления данными и таким вот дроблением датасетов на кучу мелких наборов данных.

Как бы то ни было, все они будут у нас в каталоге сегодня уже к концу дня. И, похоже, вводить критерии качества каталогов данных важно не меньше качества содержания наборов данных.

Ссылки:
[1] https://rosstat.gov.ru/opendata
[2] https://data.apicrafter.ru/topics/statistics

#opendata #datasets

ssl.rosstat.gov.ru

Федеральная служба государственной статистики

138 views15:44

APICrafter

Иван Бегтин выступил на конференции «Региональные данные», посвященной роли данных и моделей в развитии территорий России, с презентацией проекта DataCrafter (https://data.apicrafter.ru/) и рассказал о возможностях и технических особенностях системы.

Видеозапись: https://youtu.be/ccz7ysPHVrA.

Презентация: https://clck.ru/Y6rcx.

240 views14:52

APICrafter

В каталог DataCrafter загружены свежие данные из нескольких крупных государственных каталогов данных. Это данные с портала открытых данных г. Москвы 874 набора собранные в одноименную группу г. Москва в каталоге, а также данные из системы справочников ФФОМС России, 91 наборов данных помещенных в группы Справочники и классификаторы и Медицина.

Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.

Из интересных данных, например:
- Единый реестр медицинских организаций - это чуть менее чем 20 тысяч организаций
- Адресный реестр города Москвы - 440 тысяч записей

Напомню, что все данные загружаемые в DataCrafter проходят преобразование из изначальных форматов в формат JSON/BSON, хранятся внутри MongoDB и доступны через унифицированные выгрузки и API.

На сегодня в Datacrafter'е собрано:
- 4392 набора данных с 4534 таблицами
- 408 миллионов записей
- 5258 файлов экспорта (сборок данных)
- 281.7 гигабайт структурированных данных в СУБД
- более 60 тысяч полей
- из которых недокументировано 25 тысяч, а классифицировано 9.7 тысяч

Вскоре в каталог DataCrafter'а будут загружены данные из других каталогов государственных данных, как федеральных, так и российских региональных. Это уже требует реорганизации интерфейса и выгрузок данных, как минимум, удобного поиска по всем наборам, а не только по их названиям как сейчас.

#data #classifiers #moscow #catalogs #datacatalog

DataCrafter

Город Москва

Данные органов власти и организаций города Москвы и данные о Москве, организациях Москвы, статистике и инфраструктуре

2.0K views16:49

APICrafter

В каталог DataCrafter загружены данные каталога справочников и классификаторов Минздрава РФ nsi.rosminzdrav.ru, это 1520 справочников помещенных в группы Справочники и классификаторы и Медицина. Их совокупный объём составляет более 7 гигабайт.

Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.

Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей

В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.

#opendata #datacatalogs #medicine #data #datasets

DataCrafter

Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем (10-й пересмотр, том…

Данный справочник является электронным представлением XX класса Тома 3 Международной статистической классификации болезней и проблем, связанных со здоровьем, и…

1.7K views09:05

APICrafter

Очень хорошо что открытые API появляются и у государственных проектов. Открытые документированные API, что немаловажно

108 views13:43

APICrafter

Forwarded from Ах, этот Минфин (Olya Parkhimovich)

В проекте СП РФ "Госрасходы" теперь доступен открытый и документированный API с данными о расходах федерального бюджета.

Мы продолжаем не только публиковать машиночитаемые открытые данные по госфинансам, но и расширять наборы данных, предоставляемых по API.

Теперь по API можно получать не только данные о контрактах, заказчиках, субсидиях, получателях субсидий и нацпроектах, но и о расходах федерального бюджета.

API содержит:
- строки бюджета;
- расходы бюджета в разрезах ГРБС, разделов и подразделов, нацпроектов и госпрограмм;
- справочники, используемые в модуле "Бюджет" (справочник по разделам бюджета, перечень ГРБС, перечень госпрограмм и непрограммных направлений расходов, перечень нацпроектов, перечень видов расходов).

Документация и подробности тут: https://spending.gov.ru/pages/devs_api/

104 views13:43

About

Blog

Apps

Platform