APICrafter
195 subscribers
32 photos
59 links
Открытые и коммерческие API для доступа к данным о компаниях, статистики, госфинансам, финансовой сфере и так далее.
加入频道
Всем привет!

В этом канале будут публиковаться новости проекта APICrafter включая анонсы новых API, новых данных и продуктов.

Сейчас в режим бета-тестирования переходит новый продукт, каталог данных DataCrafter где собраны первичные базы данных более чем на 200 гигабайт структурированных данных https://beta.apicrafter.ru.

Последними туда загружены данные в сфере культуры в виде 59 наборов данных https://beta.apicrafter.ru/topics/culture включая данные большого объёма такие как:
- культурные события: 1,08 миллиона записей, 5.1 ГБ https://beta.apicrafter.ru/packages/mkrf-events
- реестр объектов культурного наследия: 146 тысяч записей, 27 ГБ https://beta.apicrafter.ru/packages/mkrf-egrkn

#apicrafter #datasets
В раздел Инфраструктура добавлены 13 наборов данных публикуемых Росимуществом, общим объёмом в 700 мегабайт.

Самый большой из них Реестр Федерального имущества: cведения о движимом имуществе, первоначальная стоимость которого равна или превышает 500 тыс. рублей, и особо ценном движимом имуществе (независимо от его стоимости) объёмом 1,112,641 записей, 261.1 MB

#datasets
Обновили классификацию объектов в DataCrafter'е. Теперь классифицированы 4405 полей, это 25% от общего их числа.

Добавлены новые классификационные типы:
- Код бюджета Российской Федерации (budgetcode)
- Название кода бюджета Российской Федерации (budgetname)
- Логические типы данных, булевый тип (boolean)
- Код вида расходов (kvrcode)
- Наименование вида расходов (kvrname)
- Уникальный идентификатор MongoDb (mongodbid) - используется внутри системы, не передаётся пользователям поскольку может меняться при перезагрузке данных
- Код РНФИ в реестрах Росимущества (rnfi)

А также многие другие классификационные коды.

Также в систему были загружены данные реестров каталогов открытых данных таких как hubofdata.ru, data.gov.ru и ngodata.ru

#classification #datasets
Новые наборы данных в APICrafter:
- Кадастровая оценка недвижимости в Санкт-Петербурге https://beta.apicrafter.ru/packages/commimspbcadastr/tables по зданиям, земельным участкам, машиноместам и тд. всего чуть менее 268 тысяч объектов
- Объекты недвижимости комитета имущества Санкт-Петербурка https://beta.apicrafter.ru/packages/commimspbrealestate/tables чуть менее 49 тысяч объектов включая: Нестационарные торговые объекты, Объекты творческих мастерских, Свободные объекты и другие
- Реестр собственности Санкт-Петербурга https://beta.apicrafter.ru/packages/commimspbrealty/tables включая недвижимое и движимое имущество. Всего 364 тысячи объектов

Все эти данные находятся в тематической группе "Инфраструктура" https://beta.apicrafter.ru/topics/infrastructure и по всем есть сведения о их местонахождении, кадастровом номере и адресе.

Данные доступны через API после регистрации на портале DataCrafter - https://beta.apicrafter.ru, каталоге первичных данных проекта APICrafter

#spb #datasets #realty
Новые наборы данных в APICrafter:
- Регистровая книга речных судов в Российской Федерации https://beta.apicrafter.ru/tables/rivreg/rivreg более 23 тысяч судов и сведений о них включая: реестровый номер, наименование, строительный номер, проект судна, тип и назначение и многое другое.
- Реестр организаций признанных Минюстом России нежелательными https://beta.apicrafter.ru/packages/mjunwantedorgs небольшой набор данных, можно скачать его напрямую https://beta.apicrafter.ru/packages/mjunwantedorgs/builds

Сейчас APICrafter реже обновляется отдельными наборами данных поскольку мы работаем над внесением сразу большого числа (сотни и тысячи!) датасетов разом и для этого обновляем код чтобы эти наборы данных лучше отображались и с ними можно было работать.

Скоро данных будет больше!

#opendata #datasets
Большое обновление в данных DataCrafter'а. В каталог загружены 1514 наборов данных о климате и погоде из Единой государственной системы информации об обстановке в Мировом океане (ЕСИМО). Все данные были преобразованы в унифицированные форматы и доступны в каталоге как открытые данные через API или в виде сборок/слепков данных.

Данные загружены вместе с описанием каждого поля, сведения доступны в разделе "Документация" к каждой таблице. Например, документация к набору данных Оперативные данные о сопутствующих метеонаблюдениях, передаваемых по коду FM-18 X BUOY. Период хранения в БД.

Несмотря на то что многие данные в системе ЕСИМО являются архивными, они могут пригодиться исследователям работающим с данными о мировом океане, климатологам, специалистам по работе с погодными данными и данными экономики моря.

Для нас загрузка такого числа наборов данных оказалась вызовом по причине числа наборов данных, всё таки 1514 наборов из системы ЕСИМО - это почти в 4 раза больше 393 наборов данных которые ранее к нам были загружены и сейчас интерфейс уже недостаточно удобен для работы с таким числом наборов данных, но мы уже работаем над его доработкой.

Второй вызов был в том что данные имеют свою специфику и текущие алгоритмы распознавания типов данных определяют типы данных наборов данных из ЕСИМО достаточно ограниченно. В ближайшее время начнётся работа по классификации этих полей и доработке алгоритмов под эту задачу.

#datasets #esimo #climate #weather #datacrafter #data
Forwarded from Ivan Begtin (Ivan Begtin)
Я сейчас гружу в APICrafter кучу данных с сайта Росстата [1] в раздел "Статистика" [2] и чуть позже сделаем официальный пост от проекта с тем сколько новых наборов данных появилось, а пока скажу вам друзья что всё что мы слышали или слышим про качество работы с открытыми данными у Росстата - это сказки.

Чтобы было понятно:

- с сайта Росстата скачано 1547 наборов данных
- у 742 наборов однотипная структура из CSV файлов с полями: area,gender,urban,value (все их можно было опубликовать как один набор данных)
- ещё 617 наборов данных это однотипные показатели в формате SDMX без документации, также их можно было опубликовать как один набор данных
- надо ли объяснять что это получается куча мелких файлов, эдакое "необоснованное дробление данных" (c) ради числа наборов данных
- половина данных опубликовано как CSV, другая половина как XML. Файлы CSV имеют ту особенность что половина с разделителем запятой (,), половина с разделителем (;).
- у 20 наборов данных у файлов CSV отсутствуют заголовки
- итого, если делать всё по уму, то у Росстата на сайте было бы всего 188 наборов данных. А если ещё объединить в один датасет вакансии всех террорганов Росстата то и всего то около 103-105 наборов данных. Чувствуете разницу?
- некоторые из наборов данных имеют расширение csv, а внутри это zip файлы. А иногда это zip файлы внутри которых файлы csv которые... на самом деле не csv, а тоже zip файлы
- около 30% опубликованных CSV файлов в кодировке windows-1251, остальные в UTF-8, нигде при этом не указано что в каком виде.
- несколько наборов данных XML - это дампы показателей из внутренней BI системы. Без документации.


В итоге пришлось дорабатывать код подготовки пакетов данных для автоматического распознавания кодировки, разделителей и выявления CSV файлов без заголовков. Это не так уж сложно, но окунаться в ад работы с плохоформатированными CSV файлами - это то ещё удовольствие.

А в качестве послесловия я добавлю что это ещё далеко не самый худший ФОИВ по опубликованию данных. Да, много где ситуация сильно хуже, но Росстат тоже, умеет удивлять отсутствием управления данными и таким вот дроблением датасетов на кучу мелких наборов данных.

Как бы то ни было, все они будут у нас в каталоге сегодня уже к концу дня. И, похоже, вводить критерии качества каталогов данных важно не меньше качества содержания наборов данных.

Ссылки:
[1] https://rosstat.gov.ru/opendata
[2] https://data.apicrafter.ru/topics/statistics

#opendata #datasets
В каталог DataCrafter загружены данные каталога справочников и классификаторов Минздрава РФ nsi.rosminzdrav.ru, это 1520 справочников помещенных в группы Справочники и классификаторы и Медицина. Их совокупный объём составляет более 7 гигабайт.

Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.

Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей

В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.

#opendata #datacatalogs #medicine #data #datasets
В каталог APICrafter'а загружен архив экстренных оповещений Росгидромета с 2013 по 2021 год включительно, актуальные сведения на 28 октября 2021 года [1]. В архиве 7672 записи, общим объёмом 2,9 мегабайта. Поскольку в первоисточнике присутствуют только записи о точной дате и времени оповещения и краткий текст, то и здесь представлены эти же данные.

Данные можно скачать без авторизации в формате пакета данных в формате MongoDB (BSON) [2], а также через API.

Они могут быть полезны исследователям обучающих алгоритмы выявления именованных объектов, разработчикам систем оповещения с расшифровкой упоминаемых географических объектов и погодных явлений, журналистам исследующим природные катастрофы и их частоту в нашей стране.

Ссылки:
[1] https://data.apicrafter.ru/packages/meteorf-extramessage
[2] https://data.apicrafter.ru/packages/meteorf-extramessage/builds

#opendata #datasets #weather
В каталог Datacrafter'а загружены данные 19 реестров и справочников из Федерального информационного фонд по обеспечению единства измерений (ФГИС Аршин), государственной информационной системы в ведении Росстандарта. В том числе такие наборы данных как:
- Аттестованные методики (методы) измерений - 39 тысяч записей
- Эталоны единиц величин - 114 тысяч записей
- Утверждённые типы средств измерений - 99 тысяч записей

Эти данные, а также остальные наборы данных загружены в раздел Справочники и классификаторы.

Все они доступны для бесплатного открытого использования через API DataCrafter и с возможностью получить весь набор данных в виде базы MongoDB.

Далее продолжится работа по классификаци и анализу всех загруженных метаданных в этих наборах данных.

В будущем ждите больше данных, идёт работа по агрегации крупнейших каталогов данных.

#opendata #datasets #metrology
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто ищет международные данные и не знает где они могут быть, порталы и проекты данных ООН.
Многие недооценивают влияние открытости данных на работу межгосударственных организаций, между тем почти все они переходят к открытости данных как основе открытости их работы.

- UN Data Catalog - каталог данных ООН. 4500+ датасетов от 76 структур ООН
- UnData - портал данных подразделения статистики ООН. API, выгрузка данных
- UN Comtrade Database - детальные данные по международной торговле. API, выгрузка данных
- Human Development Reports Data - данные индекса человеческого капитала UNDP. Выгрузка данных
- Urban Indicators Database - база городских индикаторов Unhabitat. Выгрузка данных
- Refugee Data Finder - базы данных по беженцам от UNHCR. Выгрузка данных
- UN Covid-19 data hub - хаб данных по COVID-19 от UNStata DESA
- UN Women data portal - портал данных UN Women
- COVID-19 data portal - портал данных по COVID-19 от UN Info
- UNOps Open data - открытые данные по стандарту IATI по операциям UNOPS
- Migration Data Portal - портал данных по миграции IOM
- UNIDO Statistics Data Portal - портал статических данных UNIDO
- FAOSTAT - статистика сельского хозяйства на портале FAO
- UNICEF Data - данные UNICEF
- UN ESCWA Data Portal - портал открытых данных UN ESCWA

А также многочисленные другие порталы и разделы с открытыми данным у других структур ООН.

#datasets #opendata #un
Обновления в каталоге APICrafter

Что нового
1. Данные о пакетах данных теперь публикуются более компактно. Страница пакета данных теперь включает сведения о характеристиках, таблицах и сборках данных вместе. Например [1] [2]
2. Таблицы открытых наборов данных теперь можно скачать в форматах JSONl, CSV и Parquet. Ссылки на данные публикуются на странице таблицы, например, "Точки обмена" [3]

Экспорт данных сейчас работает со следующими ограничениями:
- экспорт только для наборов данных менее чем с 100 тысячами записей
- форматы csv и parquet доступны только для таблиц без вложенных объектов
- сборки данных включают все данные и доступны всегда

Формат Parquet [4] популярен в data science и активно используется с помощью Jupyter Notebook.

Мы обязательно опубликуем примеры его использования.

Ссылки:
[1] https://tinyurl.com/2s3vuxaf
[2] https://tinyurl.com/2p89vp2k
[3] https://tinyurl.com/yckma22e
[4] https://tinyurl.com/mr4xjdmd

#apicrafter #datascience #datasets #parquet #json #csv
Forwarded from Ivan Begtin (Ivan Begtin)
Масштабное обновление алгоритмов классификации данных в DataCrafter'е. Теперь из 76500 полей наборов данных классифицированы 19 501 поле, это около 25,5%. Учитывая что многие поля надо отмечать как "неклассифицируемые" потому что они содержат только расчёт численные данные, то 25,5% от всех полей это очень много, можно сказать рекорд!

Классификация данных - это процесс при котором определяется природа данных содержащихся в таблицах/файлах/наборах данных. Например, идентификация кодов ИНН/ОГРН/КПП организация, ФИО / Имён / Отчеств / Фамилий физических лиц и ещё многое другое.

При этом обновлении были добавлены новые идентификаторы и правила их распознавания:
- ruscity - Российский город
- rusdayofweek - День недели на русском языке (понедельник, вторник и т.д.)
- runpa - нормативно-правовые и распорядительные документы. Законы, постановления, распоряжения и приказы
- mimetype - типы MIME, как правило ассоциированные с файлами
- filename - название файла
- rusworkposition - должности. Например: ректор,директор,и.о. директора и т.д.
- timerange - временные промежутки. Например: 10:00-12:00 или 21:10-21:30

А также многие другие. Сейчас в DataCrafter внесено 90 классов данных [1] для идентификации которых используется 134 правила идентифицирующих данные и 304 правила идентифицирующих дату/время. Дата и время идентифицируются отдельно поскольку ещё в 2017 году я заопенсорсил движок qddate [2] определяющая даты в 348 шаблонах и на 9 языках. Движок, кстати, делался для библиотеки newsworker [3] по извлечению новостей из сайтов не отдающих RSS ленты, на основе шаблонов текстов, в основе которых даты. Эту библиотеку я тогда же заопенсорсил и слегка подзабросил, но она всё ещё вполне работает и актуальна.

Чтобы достичь этого результата внутренний движок классификации данных был полностью переписан. Большая часть правил теперь описывается в конфигурационных настраиваемых файлах YAML. При применении правил они могут фильтроваться по контексту, по языку и по точности. Кроме коллекий в MongoDB теперь поддерживаются файлы CSV и JSONl. Через некоторое время рабочая версия классификатора появится в виде страницы в интернете и телеграм бота (телеграм бот уже тестируется).

Сейчас 72 из 135 правил написаны под русский язык и Россию. Они учитывают, или принятые в России классификаторы, или русскоязычное кодирование информации. Следующий шаг после открытия версии классификатора для публичного тестирования - это поддержка классификации данных происходящих из других стран.

Ссылки:
[1] https://data.apicrafter.ru/class
[2] https://github.com/ivbeg/qddate
[3] https://github.com/ivbeg/newsworker

#opendata #data #datasets #datacrafter #apicrafter #dataclassification