APICrafter
195 subscribers
32 photos
59 links
Открытые и коммерческие API для доступа к данным о компаниях, статистики, госфинансам, финансовой сфере и так далее.
加入频道
Forwarded from Ivan Begtin (Ivan Begtin)
Один из инструментов с открытым кодом который используется внутри каталога данных DataCrafter - это утилита командной строки APIBackuper.

Изначально она разрабатывалась для архивации данных которые предоставляются только через API. Таких примеров много, многие государственные информационные системы устроены именно так - есть API, чаще недокументированное, и поверх него работает веб интерфейс. Но, конечно, это не только про государственные информационные системы, такое есть и у частных проектов.

Эта утилита работает без кода, через настройки конфиг файла в котором указываются параметры обращения к API. Вот тут пример по получению данных из API российского реестра удостоверяющих центров.

Чтобы собрать данные нужно в папке с этим конфигом запустить утилиту
apibackuper run full

А после сбора данных выполнить команду apibackuper export jsonl data.jsonl

На выходе получается файл в формате JSON lines который можно обрабатывать другими инструментами.

#opendata #tools #api #openapi
Адресный реестр объектов недвижимости города Москвы

В каталоге DataCrafter вы можете найти данные Москвы об адресах земельных участков, зданий, сооружений, объектов незавершенного строительства, помещений и машино-мест.

Объем набора данных: более 440 тысяч записей, 765,7 мб.

Режим доступа: открытые данные.

Ссылка: https://beta.apicrafter.ru/packages/datamos-addressreestr.

Больше открытых данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru.
В каталог Datacrafter'а загружены данные 19 реестров и справочников из Федерального информационного фонд по обеспечению единства измерений (ФГИС Аршин), государственной информационной системы в ведении Росстандарта. В том числе такие наборы данных как:
- Аттестованные методики (методы) измерений - 39 тысяч записей
- Эталоны единиц величин - 114 тысяч записей
- Утверждённые типы средств измерений - 99 тысяч записей

Эти данные, а также остальные наборы данных загружены в раздел Справочники и классификаторы.

Все они доступны для бесплатного открытого использования через API DataCrafter и с возможностью получить весь набор данных в виде базы MongoDB.

Далее продолжится работа по классификаци и анализу всех загруженных метаданных в этих наборах данных.

В будущем ждите больше данных, идёт работа по агрегации крупнейших каталогов данных.

#opendata #datasets #metrology
В каталоге данных DataCrafter вы найдете данные, связанные в основном с Россией. Чтобы изучить какую-либо проблему в разрезе всего мира, предлагаем вам посмотреть на открытые данные Всемирного банка (World Bank Open Data: https://data.worldbank.org), которые подойдут не только как альтернатива и источник обогащения данных, но и для верификации или сопоставления индикаторов и показателей, собранных российскими статистическими ведомствами.

Портал с открытыми данными Всемирного банка имеет собственный — WBGAPI. Это пакет Python для доступа к данным Всемирного банка. WBGAPI помогает делать следующее:

— Облегчает понимание и использование баз данных, предоставляя простой способ перечислить все доступные базы данных.
— Имеет простой поиск и обнаружение — например, получив доступ к данным одновременно для страны, экономики и временного периода в одном запросе.
— Позволяет делать запросы к метаданным.
— Поддерживает pandas, легко использует встроенные графические функции или любой графический пакет (ggplot, seaborn и т.д.).
— Облегчает поиск и вывод данных по странам — пакет включает бета-версию функции поиска названий стран, которая обычно может определить правильный код для названий стран в системе ООН, а также тех, которые используются другими международными организациями и донорами.

Ссылка на WBGAPI: https://pypi.org/project/wbgapi/

A Cookbook of WBGAPI Recipes:
https://nbviewer.org/github/tgherzog/wbgapi/blob/master/examples/wbgapi-cookbook.ipynb

Источник: https://blogs.worldbank.org/opendata/introducing-wbgapi-new-python-package-accessing-world-bank-data

Смотрите также Awesome Datasets World Bank Catalog: https://datahub.io/collections/world-bank
Представляем наборы данных каталога DataCrafter из раздела «Классификаторы». Такие словари/ключевики помогают при обработке и анализе данных по финансово-экономическим темам из разрозненных источников и не только.

1. Общероссийский классификатор форм собственности — справочник содержит информацию о формах собственности России: код, наименование формы собственности. Ссылка: https://data.apicrafter.ru/packages/budgetgovru-okfs.

2. Общероссийский классификатор органов государственной власти и управления — справочник содержит информацию об органах государственной власти и управления России. Ссылка: https://data.apicrafter.ru/packages/budgetgovru-okogu.

#классификатор #справочник #opendata #datacrafter
3. Общероссийский классификатор организационно-правовых форм — справочник содержит информацию об организационно-правовых формах юридических лиц, которые являются коммерческими или некоммерческими. Также имеет сведения об организациях, созданных в соответствии с законодательством без прав юридического лица, международных организациях, и гражданах, которые ведут коммерческую деятельность или деятельность, не отнесенную законодательством к предпринимательству. Ссылка: https://data.apicrafter.ru/packages/budgetgovru-okopf.

4. Общероссийский классификатор стран мира — справочник содержит информацию об идентификации стран мира. Структурно состоит из трех блоков: цифровая идентификация, наименование, буквенная идентификация. Ссылка: https://data.apicrafter.ru/packages/budgetgovru-oksm.

5. Общероссийский классификатор валют — справочник содержит информацию о наименовании валюты, о цифровом и буквенном коде валюты, наименования стран и территорий, в которых данная валюта является денежной единицей. Ссылка: https://data.apicrafter.ru/packages/budgetgovru-okv.

Представленные наборы данных опубликованы как открытые данные и доступны для скачивания.

Больше данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru

Если вы представляете некоммерческий, исследовательский или научный проект, и хотите получить данные, уже опубликованные на DataCrafter, но имеющие ограничения, напишите нам на эл. почту [email protected] с запросом.

#классификатор #справочник #opendata #datacrafter
Если вы изучаете сферу образования, предлагаем вам воспользоваться наборами данных, опубликованными в каталоге DataCrafter:

— Сводный реестр лицензий на осуществление образовательной деятельности
https://data.apicrafter.ru/packages/eduorgsreg

— Реестр организаций, осуществляющих образовательную деятельность по аккредитованным образовательным программам
https://data.apicrafter.ru/packages/eduorgsaccred

— Реестр госзаданий — данные доступны по API. https://data.apicrafter.ru/packages/budgetgovru-regstatetask

Все данные доступны по API, для подключения к которому нужно зарегистрироваться.

Больше данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru

Если вы представляете некоммерческий, исследовательский или научный проект, и хотите получить данные, уже опубликованные на DataCrafter, но имеющие ограничения, напишите нам на эл. почту [email protected] с запросом.
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто ищет международные данные и не знает где они могут быть, порталы и проекты данных ООН.
Многие недооценивают влияние открытости данных на работу межгосударственных организаций, между тем почти все они переходят к открытости данных как основе открытости их работы.

- UN Data Catalog - каталог данных ООН. 4500+ датасетов от 76 структур ООН
- UnData - портал данных подразделения статистики ООН. API, выгрузка данных
- UN Comtrade Database - детальные данные по международной торговле. API, выгрузка данных
- Human Development Reports Data - данные индекса человеческого капитала UNDP. Выгрузка данных
- Urban Indicators Database - база городских индикаторов Unhabitat. Выгрузка данных
- Refugee Data Finder - базы данных по беженцам от UNHCR. Выгрузка данных
- UN Covid-19 data hub - хаб данных по COVID-19 от UNStata DESA
- UN Women data portal - портал данных UN Women
- COVID-19 data portal - портал данных по COVID-19 от UN Info
- UNOps Open data - открытые данные по стандарту IATI по операциям UNOPS
- Migration Data Portal - портал данных по миграции IOM
- UNIDO Statistics Data Portal - портал статических данных UNIDO
- FAOSTAT - статистика сельского хозяйства на портале FAO
- UNICEF Data - данные UNICEF
- UN ESCWA Data Portal - портал открытых данных UN ESCWA

А также многочисленные другие порталы и разделы с открытыми данным у других структур ООН.

#datasets #opendata #un
Обновления в каталоге APICrafter

Что нового
1. Данные о пакетах данных теперь публикуются более компактно. Страница пакета данных теперь включает сведения о характеристиках, таблицах и сборках данных вместе. Например [1] [2]
2. Таблицы открытых наборов данных теперь можно скачать в форматах JSONl, CSV и Parquet. Ссылки на данные публикуются на странице таблицы, например, "Точки обмена" [3]

Экспорт данных сейчас работает со следующими ограничениями:
- экспорт только для наборов данных менее чем с 100 тысячами записей
- форматы csv и parquet доступны только для таблиц без вложенных объектов
- сборки данных включают все данные и доступны всегда

Формат Parquet [4] популярен в data science и активно используется с помощью Jupyter Notebook.

Мы обязательно опубликуем примеры его использования.

Ссылки:
[1] https://tinyurl.com/2s3vuxaf
[2] https://tinyurl.com/2p89vp2k
[3] https://tinyurl.com/yckma22e
[4] https://tinyurl.com/mr4xjdmd

#apicrafter #datascience #datasets #parquet #json #csv
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве небольшого пред-анонса, где-то через 1-2 недели планируем обновление DataCrafter'а в виде доступного сервиса идентификации типов данных. Сейчас в DataCrafter'е 76399 полей данных из которых 9722 автоматически классифицированы по классам вот [1]. Пока это делалось внутренним движком обрабатывающим данные в таблицах MongoDB и работающем по базе частично закодированных правил. Этот же движок делался для автоматизации анализа качества датасетов.

Этот код сейчас отчуждается и активно тестируется.

А сами правила переносятся из кода в YAML формат. Сейчас это уже 67 правил из которых 40 про то как называются поля, 27 про то что в них содержится и ещё выявление дат делается хоть и 1 правилом, но по 312 шаблонам.

Вначале появится открытый сервис и API по такой классификации для CSV файлов и сейчас я думаю над тем стоит ли переводить его в open source.

Ссылки:
[1] https://data.apicrafter.ru/class

#openservices #datacrafter #apicrafter #data #dataclassification
В каталог DataCrafter'а добавлен открытый набор данных Реестр обязательных требований для организаций в городе Москве [1] полученный с сайта Открытый контроль (knd.mos.ru). Набор данных включает 87 тысяч записей, общим объёмом 470 МБ в формате JSONL и в 20 МБ в сжатом виде. Данные содержат обязательные требования предъявляемые организациям в зависимости от вида их деятельности.

Данные доступны через:
- в виде пакета данных (ZIP архив)
- в виде JSON lines файла экспорта
- через API платформы

Набор данных можно использовать, например, для создания сервиса определения перечня требований к организации по виду деятельности. На его основе можно создать специальный телеграм бот, мобильное приложение или веб интерфейс отличный от того что уже реализовано на портале Открытый контроль.

Ссылки:
[1] https://data.apicrafter.ru/packages/mosknd

#opendata #moscow #data #knd
Forwarded from Ivan Begtin (Ivan Begtin)
Масштабное обновление алгоритмов классификации данных в DataCrafter'е. Теперь из 76500 полей наборов данных классифицированы 19 501 поле, это около 25,5%. Учитывая что многие поля надо отмечать как "неклассифицируемые" потому что они содержат только расчёт численные данные, то 25,5% от всех полей это очень много, можно сказать рекорд!

Классификация данных - это процесс при котором определяется природа данных содержащихся в таблицах/файлах/наборах данных. Например, идентификация кодов ИНН/ОГРН/КПП организация, ФИО / Имён / Отчеств / Фамилий физических лиц и ещё многое другое.

При этом обновлении были добавлены новые идентификаторы и правила их распознавания:
- ruscity - Российский город
- rusdayofweek - День недели на русском языке (понедельник, вторник и т.д.)
- runpa - нормативно-правовые и распорядительные документы. Законы, постановления, распоряжения и приказы
- mimetype - типы MIME, как правило ассоциированные с файлами
- filename - название файла
- rusworkposition - должности. Например: ректор,директор,и.о. директора и т.д.
- timerange - временные промежутки. Например: 10:00-12:00 или 21:10-21:30

А также многие другие. Сейчас в DataCrafter внесено 90 классов данных [1] для идентификации которых используется 134 правила идентифицирующих данные и 304 правила идентифицирующих дату/время. Дата и время идентифицируются отдельно поскольку ещё в 2017 году я заопенсорсил движок qddate [2] определяющая даты в 348 шаблонах и на 9 языках. Движок, кстати, делался для библиотеки newsworker [3] по извлечению новостей из сайтов не отдающих RSS ленты, на основе шаблонов текстов, в основе которых даты. Эту библиотеку я тогда же заопенсорсил и слегка подзабросил, но она всё ещё вполне работает и актуальна.

Чтобы достичь этого результата внутренний движок классификации данных был полностью переписан. Большая часть правил теперь описывается в конфигурационных настраиваемых файлах YAML. При применении правил они могут фильтроваться по контексту, по языку и по точности. Кроме коллекий в MongoDB теперь поддерживаются файлы CSV и JSONl. Через некоторое время рабочая версия классификатора появится в виде страницы в интернете и телеграм бота (телеграм бот уже тестируется).

Сейчас 72 из 135 правил написаны под русский язык и Россию. Они учитывают, или принятые в России классификаторы, или русскоязычное кодирование информации. Следующий шаг после открытия версии классификатора для публичного тестирования - это поддержка классификации данных происходящих из других стран.

Ссылки:
[1] https://data.apicrafter.ru/class
[2] https://github.com/ivbeg/qddate
[3] https://github.com/ivbeg/newsworker

#opendata #data #datasets #datacrafter #apicrafter #dataclassification
Forwarded from Ivan Begtin (Ivan Begtin)
Телеграм бот @DataClassifierBot - это то что я обещал как инструмент автоматической классификации данных DataCrafter'а. В него можно загрузить файлы в формате CSV (разделитель обязательно запятая) или JSON lines (.jsonl) и на выходе будет одно или нескольк сообщений с таблицей структуры полей в файле, их типа и идентифицированного класса данных. Подробнее можно посмотреть на скриншотах. Через телеграм бот будет открытое бета тестирование, прошу делиться обратной связью в чате @apicrafterchat или написав мне. А для тех у кого более серьёзные задачи скоро будет доступно API.
По результатам бета-тестирования хочется понять:
1) Каких функций возможностей нехватает
2) Какие дополнительные классификации нужны/ожидаемы и пока отсутствуют.
3) Насколько точно алгоритмы работают на Ваших данных

Особенности работы бота:
- отключены почти все "неточные" правила
- текущие основные правила под русский язык
- ограничения на файлы 10M, ограничений на число полей нет


#data #apicrafter #datacrafter #datatools