APICrafter
197 subscribers
32 photos
59 links
Открытые и коммерческие API для доступа к данным о компаниях, статистики, госфинансам, финансовой сфере и так далее.
加入频道
Forwarded from Ivan Begtin (Ivan Begtin)
Один из наборов данных в DataCrafter'е - это база государственных доменов, которую я много лет веду для Национального цифрового архива (ruarxive.org) в виде репозитория на Github'е [1] и в виде базы в Airtable, причём сейчас именно база в Airtable наиболее вычищена и актуальна.

В DataCrafter она загружена 5 таблицами [2]:
- Домены
- Корневые домены
- ASN
- Госорганы и организации
- Регионы
- Государственные информационные системы

Это открытая часть контура DataCrafter'а поэтому все эти данные можно скачать одним архивом в разделе "Сборки и версии" [3], а также можно воспользоваться API без авторизации и ключа.
Как проверить домен что это домен госоргана или госструктуры
Пр запросу
https://api.crftr.net/open/rawapi/v3/govdomains/domains?where={%22Domain%22:%22sudrf.ru%22}
передаётся параметр Domain и можно получить карточку домена если он есть в базе.

Или мы хотим получить список доменов Минюста России. Минюст России есть в таблице организаций [4]
с идентификатором recPluHB9B0SGs867 . Передаём его как параметр к запросу этой таблицы [5] и получаем список идентификаторов доменов в поле Domains.

Для каждого домена делаем запрос с параметром id из поля Domains и получаем карточки каждого домена
https://api.crftr.net/open/rawapi/v3/govdomains/domains?where={%22id%22:%22recPjVbY9U2r6LTOX%22}

Аналогично работают API для доступа к остальным таблицам и, ещё раз напомню, можно скачать эту базу данных целиком. Все данные в пакете данных хранятся в формате JSON lines и легко импортируются в любую СУБД для работы JSON документами.

Ссылки:
[1] github.com/infoculture/govdomains/
[2] https://beta.apicrafter.ru/packages/govdomains/tables
[3] https://beta.apicrafter.ru/packages/govdomains/builds
[4] https://beta.apicrafter.ru/tables/govdomains/organizations
[5] https://api.crftr.net/open/rawapi/v3/govdomains/organizations?where={%22id%22:%22recPluHB9B0SGs867%22}

#opendata #opengov #govdomains
Регулярное пополнение наборов данных в APICrafter'е на 17 июля.

Добавлены наборы данных в разделе Инфраструктура
- точки продах Мегафон https://beta.apicrafter.ru/packages/megaphonsalespoints
- точки продаж МТС https://beta.apicrafter.ru/packages/mtssalespoints
- точки продаж Tele2 https://beta.apicrafter.ru/packages/tele2salespoints
- точки продаж Yota https://beta.apicrafter.ru/packages/yotasalespoints

Добавлены наборы данных в разделе Финансы
- Динамика курсов валют https://beta.apicrafter.ru/packages/cbrcurrencies
- Ключевая ставка Банка России https://beta.apicrafter.ru/packages/cbrkeyrate
- MosPrime Rate https://beta.apicrafter.ru/packages/cbrmosprime
- Ставка по кредитам овернайт (Банк России) https://beta.apicrafter.ru/packages/cbrovernight
- Международные резервы Российской Федерации https://beta.apicrafter.ru/packages/cbrreserves

В основном это данные, относительно, небольшого объёма в десятках тысяч записей, однако, к примеру, динамика курсов валют это 218 тысяч записей начиная с 1 июля 1992 года ежедневно по 144 валютам.

Все данные можно скачать как открытые данные и сейчас они доступны без необходимости авторизации. А также их можно скачать в виде слепков в формате BSON для СУБД MongoDB в сборках данных, пример, https://beta.apicrafter.ru/packages/cbrcurrencies/builds

Новые данные будут появляться еженедельно. Пока проект в стадии beta они будут актуализироваться время-от-времени, нерегулярно, а далее уже на регулярной основе.

Предложения, идеи и вопросы можно писать в форумах сообщества проекта https://apicrafter.userecho.com или в комментариях к постам в этом канале.
В раздел Инфраструктура добавлены 13 наборов данных публикуемых Росимуществом, общим объёмом в 700 мегабайт.

Самый большой из них Реестр Федерального имущества: cведения о движимом имуществе, первоначальная стоимость которого равна или превышает 500 тыс. рублей, и особо ценном движимом имуществе (независимо от его стоимости) объёмом 1,112,641 записей, 261.1 MB

#datasets
Пока мы работаем над DataCrafter'ом напомню что основной продукт APICrafter - это доступ к управляемым и поддерживаемыми нами API к ЕГРЮЛ, данным бухбалансов юридических лиц и госзакупкам для чего можно оформить подписку по одному из тарифов на сайте APICrafter'а https://apicrafter.ru
Обновили классификацию объектов в DataCrafter'е. Теперь классифицированы 4405 полей, это 25% от общего их числа.

Добавлены новые классификационные типы:
- Код бюджета Российской Федерации (budgetcode)
- Название кода бюджета Российской Федерации (budgetname)
- Логические типы данных, булевый тип (boolean)
- Код вида расходов (kvrcode)
- Наименование вида расходов (kvrname)
- Уникальный идентификатор MongoDb (mongodbid) - используется внутри системы, не передаётся пользователям поскольку может меняться при перезагрузке данных
- Код РНФИ в реестрах Росимущества (rnfi)

А также многие другие классификационные коды.

Также в систему были загружены данные реестров каталогов открытых данных таких как hubofdata.ru, data.gov.ru и ngodata.ru

#classification #datasets
Новые наборы данных в APICrafter:

- база всех НКО в России https://beta.apicrafter.ru/packages/openngodb - 2.8 гигабайт, более 740 тысяч организаций. сведения о контрактах, грантах, субсидиях и иных данных о некоммерческих организациях.
- база всех законопроектов из системы обеспечения законодательной деятельности Госдумы https://beta.apicrafter.ru/packages/sozdlawmaking - более 18 тысяч законопроектов, более 700 тысяч связанных с ними событий и действий 500 мегабайт

Для работы с данными нужен ключ который можно получить зарегистрировавшись на портале https://beta.apicrafter.ru/signup

Скоро будут обновления в данных, добавится немало инфраструктурных данных по Москве и по стране в целом.

Вопросы, запросы, пожелания направляйте через центр поддержки https://apicrafter.userecho.com/
Новые наборы данных в APICrafter:

- дополнение к базе НКО https://beta.apicrafter.ru/packages/openngodbext - включает дополнительные сведения по каждой организации такие как: гендерную информацию по учредителям и руководителям и привязку организации к группам организаций таким как РПЦ, ДОСААФ, Общество слепых, общество глухих, политические партии и так далее. Полный список доступен в коллекции grouplist этого набора данных и пример его можно увидеть здесь https://beta.apicrafter.ru/tables/openngo/grouplist/sample . Например, можно использовать эти данные для поиска всех НКО связанных с органами власти или с конкретными политическими партиями или иными крупными объединениями.
- данные по 34 тысячам жилых домов Москве https://beta.apicrafter.ru/packages/dommosru включая список управляющих компаний и ТСЖ и паспорт каждого дома включающий сведения о здания, серии дома, а также иные данные. Полный список параметров можно увидеть в примере данных https://beta.apicrafter.ru/tables/dommos/passports/sample

Следующие пополнения будут касаться новых данных о юридических лицах, статистике и инфраструктурных данных. Некоторые наборы данных будут не только на русском языке.
Новые наборы данных в APICrafter:
- база лицензий такси в Москве с 2011 года по июль 2021 года https://beta.apicrafter.ru/tables/mostaxi/licenses всего 544 тысячи лицензий по 84 тысячам юридических лиц и ИП. Охватывает все лицензии выданные в Москве, возможен поиск по ИНН и ОГРН получателей лицензий

- база лифтов Москвы https://beta.apicrafter.ru/packages/moslifts/tables всего 73 тысячи лифтов 93 производителей. Позволяет найти дома с лифтами произведенными на определенных заводах, содержит уникальные номера лифтов, их грузоподъёмность и скорость движения.

- база выплат ресурсодобывающих компаний правительствам стран https://beta.apicrafter.ru/packages/resourceprj/tables 1008 компаний, 12 тысяч платежей и 9705 проектов. Включая данные по российским нефтегазовым компаниям таким как Газпром, Роснефть, Лукойл, EN+, Фосагро и многие другие.
Это набор данных полностью доступен как открытые данные, можно использовать API без авторизации, например, https://api.crftr.net/open/rawapi/v3/resprojects/companies?where={%22country%22:%22Russian%20Federation%22} выдаст список ресурсодобывающих компаний ведущих деятельность в России.
Данные собраны из открытого проекта Resource Projects и охватывают компании отчитывающиеся публично на биржах США, Великобритании и Канады. Также эти данные можно скачать в виде цельного пакета данных в разделе сборки данных https://beta.apicrafter.ru/packages/resourceprj/builds содержит все таблицы в jsonl формате.
Новые наборы данных в APICrafter:
- Кадастровая оценка недвижимости в Санкт-Петербурге https://beta.apicrafter.ru/packages/commimspbcadastr/tables по зданиям, земельным участкам, машиноместам и тд. всего чуть менее 268 тысяч объектов
- Объекты недвижимости комитета имущества Санкт-Петербурка https://beta.apicrafter.ru/packages/commimspbrealestate/tables чуть менее 49 тысяч объектов включая: Нестационарные торговые объекты, Объекты творческих мастерских, Свободные объекты и другие
- Реестр собственности Санкт-Петербурга https://beta.apicrafter.ru/packages/commimspbrealty/tables включая недвижимое и движимое имущество. Всего 364 тысячи объектов

Все эти данные находятся в тематической группе "Инфраструктура" https://beta.apicrafter.ru/topics/infrastructure и по всем есть сведения о их местонахождении, кадастровом номере и адресе.

Данные доступны через API после регистрации на портале DataCrafter - https://beta.apicrafter.ru, каталоге первичных данных проекта APICrafter

#spb #datasets #realty
Новые наборы данных в APICrafter:
- Регистровая книга речных судов в Российской Федерации https://beta.apicrafter.ru/tables/rivreg/rivreg более 23 тысяч судов и сведений о них включая: реестровый номер, наименование, строительный номер, проект судна, тип и назначение и многое другое.
- Реестр организаций признанных Минюстом России нежелательными https://beta.apicrafter.ru/packages/mjunwantedorgs небольшой набор данных, можно скачать его напрямую https://beta.apicrafter.ru/packages/mjunwantedorgs/builds

Сейчас APICrafter реже обновляется отдельными наборами данных поскольку мы работаем над внесением сразу большого числа (сотни и тысячи!) датасетов разом и для этого обновляем код чтобы эти наборы данных лучше отображались и с ними можно было работать.

Скоро данных будет больше!

#opendata #datasets
Новые наборы данных в APICrafter:
- Статистика регистрации юридических лиц по почтовым индексам https://beta.apicrafter.ru/packages/egrulpoststats
- Статистика регистрации юридических лиц по кодам КЛАДР https://beta.apicrafter.ru/packages/egrulkladrstats
- Записи из ЕГРЮЛ сокращённые для статистического анализа https://beta.apicrafter.ru/packages/egrulstatsrecords (11,2 миллиона записей), 5.8 гигабайт

Если первые два набора - это уже рассчитанные статистические показатели, то третий набор включает данные для анализа регистрации и ликвидации юридических лиц по почтовым индексам, кодам КЛАДР, кодам ОКОПФ, кодам ОКФЭД и основаниям ликвидации. Фактически, можно замерить сколько юр лиц по конкретному коду ОКВЭД создаётся и ликвидируется по дням, месяцам, годам, территориям и так далее.

Эти наборы данных являются открытыми и их можно скачать целиком в форматах CSV, BSON и JSON lines в разделах "версии и сборки" по каждому набору данных или воспользоваться API для доступа к данным.

Все эти наборы данных созданы на базе ЕГРЮЛ, доступ к которому также есть через систему APICrafter https://apicrafter.ru и там же можно оформить подписку для коммерческого доступа к данным.

#opendata #data #egrul
На каких автомобилях ездят таксисты в Москве и Подмосковье?

В Тинькофф — журнале вышла статья Алексея Смагина о такси, зарегистрированных в России, Москве и Подмосковье, со статистикой и данными о типах машин, используемых таксистами.

Ссылка на статью: https://journal.tinkoff.ru/taxi-stat.

От проекта DataCrafter мы предоставили редакции полный набор данных о такси в Москве и Подмосковье.

Ссылка на датасет: https://beta.apicrafter.ru/tables/mostaxi/licenses.

Если вы журналист и работаете над дата-материалом, данные для которого есть у нас в коллекции, то обращайтесь к нам на емейл [email protected], и мы постараемся вам помочь!
Forwarded from Инфокультура
🗺 С 10 по 30 сентября пройдет масштабный марафон по картографированию городов России в формате открытых данных с помощью OpenStreetMap! Инфокультура и APICrafter @apicrafter выступают партнерами мероприятия и предоставят специальные призы победителям.

Каждый желающий может оставить след на карте и помочь сотням исследователей и активистов собрать данные о стране.

🔹 Почему это важно?
В России большая проблема не только с самими дорогами, но и c данными по ним. Открытых источников данных практически нет, а те, что есть, часто неполные.
Провести анализ доступности транспорта, рассчитать число велодорожек, посмотреть, какие факторы больше всего влияют на число жертв в ДТП — все это возможно только на основе открытых карт OpenStreetMap, данные в которых пополняются самими пользователями.
Но даже накопленных за много лет данных недостаточно для улучшения улиц российских городов. Организаторы конкурса хотят сделать карты полнее, доступнее и лучше, объединив усилия сотен добровольцев со всех уголков страны.

🔹 Что надо фиксировать?
Организаторы выбрали самые важные факторы, влияющие на ДТП, качество городских пространств и общественного транспорта. Это простые, но важные объекты: число полос, скоростной режим, островки безопасности, пешеходные переходы и др., — анализ которых позволит сделать улицы комфортнее.

🏆 В конкурсе 2 номинации — новички и профессионалы. Победители получат денежные призы и специальные подарки от партнеров.

Для тех, кто никогда раньше не работал с картами, организаторы специально подготовили простые инструкции, а также поддержку менторов.

👉 Подробности о конкурсе и регистрация для участия на сайте: https://osm-competition.tilda.ws/
API российских государственных сервисов

Открытые данные и API — это одно из самых технологичных и демократичных проявлений деятельности органов государственной власти.

Многие из существующих государственных баз и наборов открытых данных уже пополняют коллекцию DataCrafter (https://beta.apicrafter.ru/topics). Расскажем о наиболее полных и функциональных государственных первоисточниках открытых данных с API:

— Портал открытых данных Минкультуры России предлагает разработчикам и аналитикам воспользоваться программным интерфейсом (API) и автоматизировать получение и обновление наборов открытых данных Минкультуры России, интегрируя их в свои проекты. Например, с его помощью вы можете получить доступ к данным «Государственный каталог Музейного фонда Российской Федерации».

— Единый портал бюджетной системы РФ «Электронный бюджет» (ЕПБС) имеет раздел с открытыми данными и предоставляет недокументированный API.

К примеру, ЕПБС является источником данных по распределителям и получателям субсидий для проекта «Госзатраты» (@clearspending.ru). Данные об организациях собраны из Реестра участников бюджетного процесса, а также юридических лиц, не являющихся участниками бюджетного процесса. Ссылка на сводный реестр: https://bit.ly/2SnFn0F.

Портал открытых данных Правительства Москвы. На портале опубликовано более 1000 тематических наборов данных и справочников, в которых содержится информация более чем о 1,9 млн объектах городской инфраструктуры. Для разработчиков данные представлены в специализированных машиночитаемых форматах и доступны через API.

Портал открытых данных Санкт-Петербурга. На портале опубликовано 119 наборов данных, большая часть из которых относится к данным о городской инфраструктуре: объекты образования, спорта, здравоохранения, а также культурные и досуговые места. Разработчики могут скачивать отдельные наборы данных в машиночитаемых форматах, а также получить к ним доступ через API.

Больше открытых данных вы можете найти на портале DataCrafter: https://beta.apicrafter.ru/topics. Подключайтесь к API и используйте данные в своих проектах!
Изучаете некоммерческий сектор? Хотите узнать, какими социальными проблемами НКО занимаются в вашем регионе? Или оценить, насколько они аффилированы с властью? Интересна тема госНКО? Предлагаем вашему вниманию подборку источников данных о секторе:

— Портал «Открытые НКО» (https://openngo.ru) представляет собой систему раскрытия информации о некоммерческих организациях (НКО) в России. На портале можно посмотреть профили организаций с основной информацией о деятельности и руководителях, а также узнать, как финансируются разные типы НКО из государственных источников: гранты, госконтракты, субсидии. Для поиска информации об определенной НКО нужно всего лишь знать ее название или ИНН. База данных портала является открытой и к ней можно обращаться с помощью API: https://bit.ly/openngo-API.

— На сайте Фонда президентских грантов (ФПГ) в разделе «Открытость» опубликованы открытые данные с ретроспективой с 2017 года о заявках НКО на получение грантов: https://bit.ly/opendata-FPG. Данные содержат сведения о поданных и поддержанных проектах, на реализацию которых у ФПГ запрашивали финансирование.

— Расширенная версия базы некоммерческих организаций. База данных сформирована на основе данных проекта «Открытые НКО» (openngo.ru) с обогащением данных следующими атрибутами: пол руководителей и учредителей, наличие таких организаций в группах НКО, как ДОСААФ, РПЦ, политические партии и органы государственной власти. Набор данных: https://beta.apicrafter.ru/packages/openngodbext.

— Верифицированный реестр социально-ориентированных НКО в формате XLSX, сформированный в 2020 году Минэкономразвития с целью поддержки некоммерческих организаций в условиях коронавирусной пандемии. Ссылка: https://economy.gov.ru/material/dokumenty/reestr_socialno_orientirovannyh_nekommercheskih_organizaciy.html.

Больше открытых данных на другие темы вы найдете на портале DataCrafter: https://beta.apicrafter.ru. А также мы бесплатно даем данные для ваших некоммерческих, исследовательских и научных проектов — для их запроса напишите нам на эл. почту [email protected].
В России доступно большое количество данных, отражающих состояние экономики и социальной политики на федеральном уровне. При этом в открытом доступе крайне мало хорошо структурированных данных, прежде всего, данных о качестве жизни в хорошей муниципальной детализации, привязке к отраслевым, территориальным схемам и программам развития. Еще сложнее с данными по прогнозам и планам развития.

Хотя на эти данные есть запрос со стороны бизнеса, который на их основе может создавать различные сервисы и аналитические инструменты, помогающие в эффективном управлении территориями и улучшающие качество жизни.

📆 На конференции 8 октября мы обсудим с представителями региональных властей, федеральных ведомств и коммерческих компаний вопросы доступности и качества данных, моделей анализа, оценки, прогнозирования и планирования с детализацией до муниципального и регионального уровня.

➡️ Присоединяйтесь! Подробности и регистрация на сайте: https://regiondata.aurd.ru/
Что такое таблица? Краткий обзор API для обеспечения доступности

Информация на госсайтах должна быть доступна каждому. Представляем вам технические рекомендации по верстке таблиц на веб-сайтах от Эда Соудена, разработчика государственных цифровых сервисов в Великобритании.

Эд рассказывает про работу с таблицами с точки зрения их доступности. Скринридеры позволяют перемещаться по таблицам не только от колонки к колонке, но и к следующей строке в пределах одной колонки. Если назначить не те атрибуты и применить к таблице не те свойства, то скринридер не сможет воспринимать таблицу как таблицу, и навигация будет сломана. Поэтому из-за того, что недостаточно использовать семантические теги, рекомендуется всегда проверять вёрстку сайта с помощью инструментов доступности в каждом из браузеров отдельно, так как они используют собственные характеристики для идентификации табличной вёрстки.

Добавим, что открытые данные — это следующий уровень доступности информации на сайте. Поэтому рекомендуем публиковать большие таблицы в формате открытых данных в соответствии с принятыми стандартами во всем мире.

Принципы Хартии открытых данных.
Стандарт публикации открытых данных Frictionless Data.
Открытые стандарты публикации данных в Project Open Data.
Открытые стандарты для данных от The ODI.
Открытые стандарты для данных от Университета Джона Хопкинса.

Оригинальное название доклада "What even is a table? A quick look at Accessibility APIs". Презентация: https://speakerdeck.com/edds/what-even-is-a-table-a-quick-look-at-accessibility-apis?slide=1

Пересказ доклада нашли в блоге Defront: https://defront.ru/posts/2019/10-october/19-what-even-is-a-table/

#opendata #API #a11y
Как распарсить любой веб-сайт?

Очень часто данные, представляющие общественный интерес, публикуются в неудобных немашиночитамых форматах прямиком на веб-страницах сайтах.

В коллекцию DataCrafter (https://data.apicrafter.ru/) попадают не только уже открытые данные в машиночитаемом формате, но и собранные в ручную с помощью инструментов веб-скрейпинга и парсинга.

Делимся с вами статьей об одном из подходов извлечения информации с сайтов: с чего начать, куда смотреть и что использовать.

Краткие рекомендации:
1. Проверьте, есть ли у сайта официальный API, RSS-лента, sitemap.xml и другие интерфейсы для разработчиков.
2. Найдите XHR запросы в консоли разработчика.
3. Найдите данные в JSON в HTML коде страницы.
4. Если ничего из перечисленного выше нет, пишите скрипт для парсинга HTML тегов. Вам помогут регулярные выражения, библиотеки Python — BeautifulSoup4 и Scrapy, а также фильтры XPath, CSS-selectors.

Полный текст: https://habr.com/ru/post/579336