APICrafter
191 subscribers
32 photos
59 links
Открытые и коммерческие API для доступа к данным о компаниях, статистики, госфинансам, финансовой сфере и так далее.
加入频道
Всем привет!

В этом канале будут публиковаться новости проекта APICrafter включая анонсы новых API, новых данных и продуктов.

Сейчас в режим бета-тестирования переходит новый продукт, каталог данных DataCrafter где собраны первичные базы данных более чем на 200 гигабайт структурированных данных https://beta.apicrafter.ru.

Последними туда загружены данные в сфере культуры в виде 59 наборов данных https://beta.apicrafter.ru/topics/culture включая данные большого объёма такие как:
- культурные события: 1,08 миллиона записей, 5.1 ГБ https://beta.apicrafter.ru/packages/mkrf-events
- реестр объектов культурного наследия: 146 тысяч записей, 27 ГБ https://beta.apicrafter.ru/packages/mkrf-egrkn

#apicrafter #datasets
В раздел Инфраструктура добавлены 13 наборов данных публикуемых Росимуществом, общим объёмом в 700 мегабайт.

Самый большой из них Реестр Федерального имущества: cведения о движимом имуществе, первоначальная стоимость которого равна или превышает 500 тыс. рублей, и особо ценном движимом имуществе (независимо от его стоимости) объёмом 1,112,641 записей, 261.1 MB

#datasets
Обновили классификацию объектов в DataCrafter'е. Теперь классифицированы 4405 полей, это 25% от общего их числа.

Добавлены новые классификационные типы:
- Код бюджета Российской Федерации (budgetcode)
- Название кода бюджета Российской Федерации (budgetname)
- Логические типы данных, булевый тип (boolean)
- Код вида расходов (kvrcode)
- Наименование вида расходов (kvrname)
- Уникальный идентификатор MongoDb (mongodbid) - используется внутри системы, не передаётся пользователям поскольку может меняться при перезагрузке данных
- Код РНФИ в реестрах Росимущества (rnfi)

А также многие другие классификационные коды.

Также в систему были загружены данные реестров каталогов открытых данных таких как hubofdata.ru, data.gov.ru и ngodata.ru

#classification #datasets
Новые наборы данных в APICrafter:
- Кадастровая оценка недвижимости в Санкт-Петербурге https://beta.apicrafter.ru/packages/commimspbcadastr/tables по зданиям, земельным участкам, машиноместам и тд. всего чуть менее 268 тысяч объектов
- Объекты недвижимости комитета имущества Санкт-Петербурка https://beta.apicrafter.ru/packages/commimspbrealestate/tables чуть менее 49 тысяч объектов включая: Нестационарные торговые объекты, Объекты творческих мастерских, Свободные объекты и другие
- Реестр собственности Санкт-Петербурга https://beta.apicrafter.ru/packages/commimspbrealty/tables включая недвижимое и движимое имущество. Всего 364 тысячи объектов

Все эти данные находятся в тематической группе "Инфраструктура" https://beta.apicrafter.ru/topics/infrastructure и по всем есть сведения о их местонахождении, кадастровом номере и адресе.

Данные доступны через API после регистрации на портале DataCrafter - https://beta.apicrafter.ru, каталоге первичных данных проекта APICrafter

#spb #datasets #realty
Новые наборы данных в APICrafter:
- Регистровая книга речных судов в Российской Федерации https://beta.apicrafter.ru/tables/rivreg/rivreg более 23 тысяч судов и сведений о них включая: реестровый номер, наименование, строительный номер, проект судна, тип и назначение и многое другое.
- Реестр организаций признанных Минюстом России нежелательными https://beta.apicrafter.ru/packages/mjunwantedorgs небольшой набор данных, можно скачать его напрямую https://beta.apicrafter.ru/packages/mjunwantedorgs/builds

Сейчас APICrafter реже обновляется отдельными наборами данных поскольку мы работаем над внесением сразу большого числа (сотни и тысячи!) датасетов разом и для этого обновляем код чтобы эти наборы данных лучше отображались и с ними можно было работать.

Скоро данных будет больше!

#opendata #datasets
Большое обновление в данных DataCrafter'а. В каталог загружены 1514 наборов данных о климате и погоде из Единой государственной системы информации об обстановке в Мировом океане (ЕСИМО). Все данные были преобразованы в унифицированные форматы и доступны в каталоге как открытые данные через API или в виде сборок/слепков данных.

Данные загружены вместе с описанием каждого поля, сведения доступны в разделе "Документация" к каждой таблице. Например, документация к набору данных Оперативные данные о сопутствующих метеонаблюдениях, передаваемых по коду FM-18 X BUOY. Период хранения в БД.

Несмотря на то что многие данные в системе ЕСИМО являются архивными, они могут пригодиться исследователям работающим с данными о мировом океане, климатологам, специалистам по работе с погодными данными и данными экономики моря.

Для нас загрузка такого числа наборов данных оказалась вызовом по причине числа наборов данных, всё таки 1514 наборов из системы ЕСИМО - это почти в 4 раза больше 393 наборов данных которые ранее к нам были загружены и сейчас интерфейс уже недостаточно удобен для работы с таким числом наборов данных, но мы уже работаем над его доработкой.

Второй вызов был в том что данные имеют свою специфику и текущие алгоритмы распознавания типов данных определяют типы данных наборов данных из ЕСИМО достаточно ограниченно. В ближайшее время начнётся работа по классификации этих полей и доработке алгоритмов под эту задачу.

#datasets #esimo #climate #weather #datacrafter #data
Forwarded from Ivan Begtin (Ivan Begtin)
Я сейчас гружу в APICrafter кучу данных с сайта Росстата [1] в раздел "Статистика" [2] и чуть позже сделаем официальный пост от проекта с тем сколько новых наборов данных появилось, а пока скажу вам друзья что всё что мы слышали или слышим про качество работы с открытыми данными у Росстата - это сказки.

Чтобы было понятно:

- с сайта Росстата скачано 1547 наборов данных
- у 742 наборов однотипная структура из CSV файлов с полями: area,gender,urban,value (все их можно было опубликовать как один набор данных)
- ещё 617 наборов данных это однотипные показатели в формате SDMX без документации, также их можно было опубликовать как один набор данных
- надо ли объяснять что это получается куча мелких файлов, эдакое "необоснованное дробление данных" (c) ради числа наборов данных
- половина данных опубликовано как CSV, другая половина как XML. Файлы CSV имеют ту особенность что половина с разделителем запятой (,), половина с разделителем (;).
- у 20 наборов данных у файлов CSV отсутствуют заголовки
- итого, если делать всё по уму, то у Росстата на сайте было бы всего 188 наборов данных. А если ещё объединить в один датасет вакансии всех террорганов Росстата то и всего то около 103-105 наборов данных. Чувствуете разницу?
- некоторые из наборов данных имеют расширение csv, а внутри это zip файлы. А иногда это zip файлы внутри которых файлы csv которые... на самом деле не csv, а тоже zip файлы
- около 30% опубликованных CSV файлов в кодировке windows-1251, остальные в UTF-8, нигде при этом не указано что в каком виде.
- несколько наборов данных XML - это дампы показателей из внутренней BI системы. Без документации.


В итоге пришлось дорабатывать код подготовки пакетов данных для автоматического распознавания кодировки, разделителей и выявления CSV файлов без заголовков. Это не так уж сложно, но окунаться в ад работы с плохоформатированными CSV файлами - это то ещё удовольствие.

А в качестве послесловия я добавлю что это ещё далеко не самый худший ФОИВ по опубликованию данных. Да, много где ситуация сильно хуже, но Росстат тоже, умеет удивлять отсутствием управления данными и таким вот дроблением датасетов на кучу мелких наборов данных.

Как бы то ни было, все они будут у нас в каталоге сегодня уже к концу дня. И, похоже, вводить критерии качества каталогов данных важно не меньше качества содержания наборов данных.

Ссылки:
[1] https://rosstat.gov.ru/opendata
[2] https://data.apicrafter.ru/topics/statistics

#opendata #datasets
В каталог DataCrafter загружены данные каталога справочников и классификаторов Минздрава РФ nsi.rosminzdrav.ru, это 1520 справочников помещенных в группы Справочники и классификаторы и Медицина. Их совокупный объём составляет более 7 гигабайт.

Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.

Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей

В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.

#opendata #datacatalogs #medicine #data #datasets
В каталог APICrafter'а загружен архив экстренных оповещений Росгидромета с 2013 по 2021 год включительно, актуальные сведения на 28 октября 2021 года [1]. В архиве 7672 записи, общим объёмом 2,9 мегабайта. Поскольку в первоисточнике присутствуют только записи о точной дате и времени оповещения и краткий текст, то и здесь представлены эти же данные.

Данные можно скачать без авторизации в формате пакета данных в формате MongoDB (BSON) [2], а также через API.

Они могут быть полезны исследователям обучающих алгоритмы выявления именованных объектов, разработчикам систем оповещения с расшифровкой упоминаемых географических объектов и погодных явлений, журналистам исследующим природные катастрофы и их частоту в нашей стране.

Ссылки:
[1] https://data.apicrafter.ru/packages/meteorf-extramessage
[2] https://data.apicrafter.ru/packages/meteorf-extramessage/builds

#opendata #datasets #weather
В каталог Datacrafter'а загружены данные 19 реестров и справочников из Федерального информационного фонд по обеспечению единства измерений (ФГИС Аршин), государственной информационной системы в ведении Росстандарта. В том числе такие наборы данных как:
- Аттестованные методики (методы) измерений - 39 тысяч записей
- Эталоны единиц величин - 114 тысяч записей
- Утверждённые типы средств измерений - 99 тысяч записей

Эти данные, а также остальные наборы данных загружены в раздел Справочники и классификаторы.

Все они доступны для бесплатного открытого использования через API DataCrafter и с возможностью получить весь набор данных в виде базы MongoDB.

Далее продолжится работа по классификаци и анализу всех загруженных метаданных в этих наборах данных.

В будущем ждите больше данных, идёт работа по агрегации крупнейших каталогов данных.

#opendata #datasets #metrology
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто ищет международные данные и не знает где они могут быть, порталы и проекты данных ООН.
Многие недооценивают влияние открытости данных на работу межгосударственных организаций, между тем почти все они переходят к открытости данных как основе открытости их работы.

- UN Data Catalog - каталог данных ООН. 4500+ датасетов от 76 структур ООН
- UnData - портал данных подразделения статистики ООН. API, выгрузка данных
- UN Comtrade Database - детальные данные по международной торговле. API, выгрузка данных
- Human Development Reports Data - данные индекса человеческого капитала UNDP. Выгрузка данных
- Urban Indicators Database - база городских индикаторов Unhabitat. Выгрузка данных
- Refugee Data Finder - базы данных по беженцам от UNHCR. Выгрузка данных
- UN Covid-19 data hub - хаб данных по COVID-19 от UNStata DESA
- UN Women data portal - портал данных UN Women
- COVID-19 data portal - портал данных по COVID-19 от UN Info
- UNOps Open data - открытые данные по стандарту IATI по операциям UNOPS
- Migration Data Portal - портал данных по миграции IOM
- UNIDO Statistics Data Portal - портал статических данных UNIDO
- FAOSTAT - статистика сельского хозяйства на портале FAO
- UNICEF Data - данные UNICEF
- UN ESCWA Data Portal - портал открытых данных UN ESCWA

А также многочисленные другие порталы и разделы с открытыми данным у других структур ООН.

#datasets #opendata #un