Очень хорошо что открытые API появляются и у государственных проектов. Открытые документированные API, что немаловажно
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
В проекте СП РФ "Госрасходы" теперь доступен открытый и документированный API с данными о расходах федерального бюджета.
Мы продолжаем не только публиковать машиночитаемые открытые данные по госфинансам, но и расширять наборы данных, предоставляемых по API.
Теперь по API можно получать не только данные о контрактах, заказчиках, субсидиях, получателях субсидий и нацпроектах, но и о расходах федерального бюджета.
API содержит:
- строки бюджета;
- расходы бюджета в разрезах ГРБС, разделов и подразделов, нацпроектов и госпрограмм;
- справочники, используемые в модуле "Бюджет" (справочник по разделам бюджета, перечень ГРБС, перечень госпрограмм и непрограммных направлений расходов, перечень нацпроектов, перечень видов расходов).
Документация и подробности тут: https://spending.gov.ru/pages/devs_api/
Мы продолжаем не только публиковать машиночитаемые открытые данные по госфинансам, но и расширять наборы данных, предоставляемых по API.
Теперь по API можно получать не только данные о контрактах, заказчиках, субсидиях, получателях субсидий и нацпроектах, но и о расходах федерального бюджета.
API содержит:
- строки бюджета;
- расходы бюджета в разрезах ГРБС, разделов и подразделов, нацпроектов и госпрограмм;
- справочники, используемые в модуле "Бюджет" (справочник по разделам бюджета, перечень ГРБС, перечень госпрограмм и непрограммных направлений расходов, перечень нацпроектов, перечень видов расходов).
Документация и подробности тут: https://spending.gov.ru/pages/devs_api/
В каталог DataCrafter были добавлены 40 наборов данных судебной системы города Москвы, они собраны в разделе Судебная система и включают такие наборы данных как:
- Перечень всех дел, находящихся в судах общей юрисдикции города Москвы - 5,3 миллиона дел
- Информация по первичным документам гражданского производства в судах общей юрисдикции города Москвы - 757 тысяч документов
- Расписание судебных заседаний в судах общей юрисдикции города Москвы - 3,7 миллиона записей
и многие другие наборы данных в общей сложности на 20 гигабайт структурированных данных.
Для работы с этими данными требуется регистрация на портале, доступ к ним осуществляется через ключ выдаваемый автоматически в личном кабинете.
Общая статистика
В общей сложности в каталоге DataCrafter на 27.10.2021 собрано 5952 наборов данных, 6094 таблицы, 433 миллиона строк (записей) в СУБД, 312 ГБ структурированных данных, 75 813 уникальных полей метаданных из которых классифицировано 9731 поле (выявлен один из идентификаторов - ИНН/ОГРН/ОКАТО и др).
- Перечень всех дел, находящихся в судах общей юрисдикции города Москвы - 5,3 миллиона дел
- Информация по первичным документам гражданского производства в судах общей юрисдикции города Москвы - 757 тысяч документов
- Расписание судебных заседаний в судах общей юрисдикции города Москвы - 3,7 миллиона записей
и многие другие наборы данных в общей сложности на 20 гигабайт структурированных данных.
Для работы с этими данными требуется регистрация на портале, доступ к ним осуществляется через ключ выдаваемый автоматически в личном кабинете.
Общая статистика
В общей сложности в каталоге DataCrafter на 27.10.2021 собрано 5952 наборов данных, 6094 таблицы, 433 миллиона строк (записей) в СУБД, 312 ГБ структурированных данных, 75 813 уникальных полей метаданных из которых классифицировано 9731 поле (выявлен один из идентификаторов - ИНН/ОГРН/ОКАТО и др).
DataCrafter
Судебная система
Данные из судебной системы относящиеся к Верховному суду, Арбитражным судам, Судам общей юрисдикции, Судебному департаменту и так далее.
Что известно о лифтах и их производителях в домах Москвы?
В каталоге DataCrafter есть набора данных об установленных лифтах в городе Москве, включая: адрес установки, регистрационный номер, грузоподъемность лифта, скорость и наименование производителя.
Режим доступа: по API и уникальному ключу, доступному после регистрации. Объем: 73 761 записей, 20.0 MB.
Набор данных: https://data.apicrafter.ru/packages/moslifts.
Немного выводов на основе данных. Самые популярные производители лифтов многоэтажных домов в Москве: Карачаровский механический завод (КМЗ), Щербинский лифтостроительный завод (ЩЛЗ) и OTIS.
44,7% от общего числа лифтов в этом наборе данных имеют грузоподъемность не более 400 кг. Еще 18,8% — не более 630 кг.
В среднем самые быстрые лифты — это Hangzhou Aolida Elevator (2 м/c), SIGMA Elevator Company (1,55 м/c), KONE (1,4 м/c), SCHINDLER (1,37 м/с).
Набор данных может быть интересен тем, кто анализирует городские данные в исследовательских целях, а также предпринимателям рынка лифтов.
В каталоге DataCrafter есть набора данных об установленных лифтах в городе Москве, включая: адрес установки, регистрационный номер, грузоподъемность лифта, скорость и наименование производителя.
Режим доступа: по API и уникальному ключу, доступному после регистрации. Объем: 73 761 записей, 20.0 MB.
Набор данных: https://data.apicrafter.ru/packages/moslifts.
Немного выводов на основе данных. Самые популярные производители лифтов многоэтажных домов в Москве: Карачаровский механический завод (КМЗ), Щербинский лифтостроительный завод (ЩЛЗ) и OTIS.
44,7% от общего числа лифтов в этом наборе данных имеют грузоподъемность не более 400 кг. Еще 18,8% — не более 630 кг.
В среднем самые быстрые лифты — это Hangzhou Aolida Elevator (2 м/c), SIGMA Elevator Company (1,55 м/c), KONE (1,4 м/c), SCHINDLER (1,37 м/с).
Набор данных может быть интересен тем, кто анализирует городские данные в исследовательских целях, а также предпринимателям рынка лифтов.
APICrafter
Что известно о лифтах и их производителях в домах Москвы? В каталоге DataCrafter есть набора данных об установленных лифтах в городе Москве, включая: адрес установки, регистрационный номер, грузоподъемность лифта, скорость и наименование производителя. Режим…
Что можно сделать еще?
— Проанализировать данные о лифтах сопоставив их с данными из базы о жилых домах, которая содержит сведения, паспорта, данные по управляющим компаниям и ТСЖ по жилым домам в Москве: https://data.apicrafter.ru/packages/dommosru.
— Имея данные о конкретных адресах, где установлен лифт, добавить колонки с административными округами и районами.
— Геокодировать адреса домов, где установлен лифты, чтобы визуализировать на карте.
Больше открытых данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru
Если вы представляете некоммерческий, исследовательский или научный проект, и хотите получить данные, уже опубликованные на DataCrafter, напишите нам на эл. почту [email protected].
— Проанализировать данные о лифтах сопоставив их с данными из базы о жилых домах, которая содержит сведения, паспорта, данные по управляющим компаниям и ТСЖ по жилым домам в Москве: https://data.apicrafter.ru/packages/dommosru.
— Имея данные о конкретных адресах, где установлен лифт, добавить колонки с административными округами и районами.
— Геокодировать адреса домов, где установлен лифты, чтобы визуализировать на карте.
Больше открытых данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru
Если вы представляете некоммерческий, исследовательский или научный проект, и хотите получить данные, уже опубликованные на DataCrafter, напишите нам на эл. почту [email protected].
DataCrafter
База жилых домов в Москве
Базовые сведения, паспорта, данные по управляющим компаниям и ТСЖ по жилым домам в Москве
В каталог APICrafter'а загружен архив экстренных оповещений Росгидромета с 2013 по 2021 год включительно, актуальные сведения на 28 октября 2021 года [1]. В архиве 7672 записи, общим объёмом 2,9 мегабайта. Поскольку в первоисточнике присутствуют только записи о точной дате и времени оповещения и краткий текст, то и здесь представлены эти же данные.
Данные можно скачать без авторизации в формате пакета данных в формате MongoDB (BSON) [2], а также через API.
Они могут быть полезны исследователям обучающих алгоритмы выявления именованных объектов, разработчикам систем оповещения с расшифровкой упоминаемых географических объектов и погодных явлений, журналистам исследующим природные катастрофы и их частоту в нашей стране.
Ссылки:
[1] https://data.apicrafter.ru/packages/meteorf-extramessage
[2] https://data.apicrafter.ru/packages/meteorf-extramessage/builds
#opendata #datasets #weather
Данные можно скачать без авторизации в формате пакета данных в формате MongoDB (BSON) [2], а также через API.
Они могут быть полезны исследователям обучающих алгоритмы выявления именованных объектов, разработчикам систем оповещения с расшифровкой упоминаемых географических объектов и погодных явлений, журналистам исследующим природные катастрофы и их частоту в нашей стране.
Ссылки:
[1] https://data.apicrafter.ru/packages/meteorf-extramessage
[2] https://data.apicrafter.ru/packages/meteorf-extramessage/builds
#opendata #datasets #weather
DataCrafter
Архив экстренных сообщений Росгидромета
Экстренные сообщения с официального сайта Росгидромета http://www.meteorf.ru/product/emergency/ с 2013 по 2021 годы
Об инструменте командной строки APIBackuper для архивирования/резервного копирования вызовов API, который используется при работе с каталогом DataCrafter.
Ссылка: https://github.com/ruarxive/apibackuper
Ссылка: https://github.com/ruarxive/apibackuper
GitHub
GitHub - ruarxive/apibackuper: Python library and cmd tool to backup API calls
Python library and cmd tool to backup API calls. Contribute to ruarxive/apibackuper development by creating an account on GitHub.
Forwarded from Ivan Begtin (Ivan Begtin)
Один из инструментов с открытым кодом который используется внутри каталога данных DataCrafter - это утилита командной строки APIBackuper.
Изначально она разрабатывалась для архивации данных которые предоставляются только через API. Таких примеров много, многие государственные информационные системы устроены именно так - есть API, чаще недокументированное, и поверх него работает веб интерфейс. Но, конечно, это не только про государственные информационные системы, такое есть и у частных проектов.
Эта утилита работает без кода, через настройки конфиг файла в котором указываются параметры обращения к API. Вот тут пример по получению данных из API российского реестра удостоверяющих центров.
Чтобы собрать данные нужно в папке с этим конфигом запустить утилиту
apibackuper run full
А после сбора данных выполнить команду apibackuper export jsonl data.jsonl
На выходе получается файл в формате JSON lines который можно обрабатывать другими инструментами.
#opendata #tools #api #openapi
Изначально она разрабатывалась для архивации данных которые предоставляются только через API. Таких примеров много, многие государственные информационные системы устроены именно так - есть API, чаще недокументированное, и поверх него работает веб интерфейс. Но, конечно, это не только про государственные информационные системы, такое есть и у частных проектов.
Эта утилита работает без кода, через настройки конфиг файла в котором указываются параметры обращения к API. Вот тут пример по получению данных из API российского реестра удостоверяющих центров.
Чтобы собрать данные нужно в папке с этим конфигом запустить утилиту
apibackuper run full
А после сбора данных выполнить команду apibackuper export jsonl data.jsonl
На выходе получается файл в формате JSON lines который можно обрабатывать другими инструментами.
#opendata #tools #api #openapi
Адресный реестр объектов недвижимости города Москвы
В каталоге DataCrafter вы можете найти данные Москвы об адресах земельных участков, зданий, сооружений, объектов незавершенного строительства, помещений и машино-мест.
Объем набора данных: более 440 тысяч записей, 765,7 мб.
Режим доступа: открытые данные.
Ссылка: https://beta.apicrafter.ru/packages/datamos-addressreestr.
Больше открытых данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru.
В каталоге DataCrafter вы можете найти данные Москвы об адресах земельных участков, зданий, сооружений, объектов незавершенного строительства, помещений и машино-мест.
Объем набора данных: более 440 тысяч записей, 765,7 мб.
Режим доступа: открытые данные.
Ссылка: https://beta.apicrafter.ru/packages/datamos-addressreestr.
Больше открытых данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru.
В каталог Datacrafter'а загружены данные 19 реестров и справочников из Федерального информационного фонд по обеспечению единства измерений (ФГИС Аршин), государственной информационной системы в ведении Росстандарта. В том числе такие наборы данных как:
- Аттестованные методики (методы) измерений - 39 тысяч записей
- Эталоны единиц величин - 114 тысяч записей
- Утверждённые типы средств измерений - 99 тысяч записей
Эти данные, а также остальные наборы данных загружены в раздел Справочники и классификаторы.
Все они доступны для бесплатного открытого использования через API DataCrafter и с возможностью получить весь набор данных в виде базы MongoDB.
Далее продолжится работа по классификаци и анализу всех загруженных метаданных в этих наборах данных.
В будущем ждите больше данных, идёт работа по агрегации крупнейших каталогов данных.
#opendata #datasets #metrology
- Аттестованные методики (методы) измерений - 39 тысяч записей
- Эталоны единиц величин - 114 тысяч записей
- Утверждённые типы средств измерений - 99 тысяч записей
Эти данные, а также остальные наборы данных загружены в раздел Справочники и классификаторы.
Все они доступны для бесплатного открытого использования через API DataCrafter и с возможностью получить весь набор данных в виде базы MongoDB.
Далее продолжится работа по классификаци и анализу всех загруженных метаданных в этих наборах данных.
В будущем ждите больше данных, идёт работа по агрегации крупнейших каталогов данных.
#opendata #datasets #metrology
DataCrafter
Справочники и классификаторы
Наборы данных справочников и классификаторов
В каталоге данных DataCrafter вы найдете данные, связанные в основном с Россией. Чтобы изучить какую-либо проблему в разрезе всего мира, предлагаем вам посмотреть на открытые данные Всемирного банка (World Bank Open Data: https://data.worldbank.org), которые подойдут не только как альтернатива и источник обогащения данных, но и для верификации или сопоставления индикаторов и показателей, собранных российскими статистическими ведомствами.
Портал с открытыми данными Всемирного банка имеет собственный — WBGAPI. Это пакет Python для доступа к данным Всемирного банка. WBGAPI помогает делать следующее:
— Облегчает понимание и использование баз данных, предоставляя простой способ перечислить все доступные базы данных.
— Имеет простой поиск и обнаружение — например, получив доступ к данным одновременно для страны, экономики и временного периода в одном запросе.
— Позволяет делать запросы к метаданным.
— Поддерживает pandas, легко использует встроенные графические функции или любой графический пакет (ggplot, seaborn и т.д.).
— Облегчает поиск и вывод данных по странам — пакет включает бета-версию функции поиска названий стран, которая обычно может определить правильный код для названий стран в системе ООН, а также тех, которые используются другими международными организациями и донорами.
Ссылка на WBGAPI: https://pypi.org/project/wbgapi/
A Cookbook of WBGAPI Recipes:
https://nbviewer.org/github/tgherzog/wbgapi/blob/master/examples/wbgapi-cookbook.ipynb
Источник: https://blogs.worldbank.org/opendata/introducing-wbgapi-new-python-package-accessing-world-bank-data
Смотрите также Awesome Datasets World Bank Catalog: https://datahub.io/collections/world-bank
Портал с открытыми данными Всемирного банка имеет собственный — WBGAPI. Это пакет Python для доступа к данным Всемирного банка. WBGAPI помогает делать следующее:
— Облегчает понимание и использование баз данных, предоставляя простой способ перечислить все доступные базы данных.
— Имеет простой поиск и обнаружение — например, получив доступ к данным одновременно для страны, экономики и временного периода в одном запросе.
— Позволяет делать запросы к метаданным.
— Поддерживает pandas, легко использует встроенные графические функции или любой графический пакет (ggplot, seaborn и т.д.).
— Облегчает поиск и вывод данных по странам — пакет включает бета-версию функции поиска названий стран, которая обычно может определить правильный код для названий стран в системе ООН, а также тех, которые используются другими международными организациями и донорами.
Ссылка на WBGAPI: https://pypi.org/project/wbgapi/
A Cookbook of WBGAPI Recipes:
https://nbviewer.org/github/tgherzog/wbgapi/blob/master/examples/wbgapi-cookbook.ipynb
Источник: https://blogs.worldbank.org/opendata/introducing-wbgapi-new-python-package-accessing-world-bank-data
Смотрите также Awesome Datasets World Bank Catalog: https://datahub.io/collections/world-bank
World Bank Open Data
Free and open access to global development data
Представляем наборы данных каталога DataCrafter из раздела «Классификаторы». Такие словари/ключевики помогают при обработке и анализе данных по финансово-экономическим темам из разрозненных источников и не только.
1. Общероссийский классификатор форм собственности — справочник содержит информацию о формах собственности России: код, наименование формы собственности. Ссылка: https://data.apicrafter.ru/packages/budgetgovru-okfs.
2. Общероссийский классификатор органов государственной власти и управления — справочник содержит информацию об органах государственной власти и управления России. Ссылка: https://data.apicrafter.ru/packages/budgetgovru-okogu.
#классификатор #справочник #opendata #datacrafter
1. Общероссийский классификатор форм собственности — справочник содержит информацию о формах собственности России: код, наименование формы собственности. Ссылка: https://data.apicrafter.ru/packages/budgetgovru-okfs.
2. Общероссийский классификатор органов государственной власти и управления — справочник содержит информацию об органах государственной власти и управления России. Ссылка: https://data.apicrafter.ru/packages/budgetgovru-okogu.
#классификатор #справочник #opendata #datacrafter
3. Общероссийский классификатор организационно-правовых форм — справочник содержит информацию об организационно-правовых формах юридических лиц, которые являются коммерческими или некоммерческими. Также имеет сведения об организациях, созданных в соответствии с законодательством без прав юридического лица, международных организациях, и гражданах, которые ведут коммерческую деятельность или деятельность, не отнесенную законодательством к предпринимательству. Ссылка: https://data.apicrafter.ru/packages/budgetgovru-okopf.
4. Общероссийский классификатор стран мира — справочник содержит информацию об идентификации стран мира. Структурно состоит из трех блоков: цифровая идентификация, наименование, буквенная идентификация. Ссылка: https://data.apicrafter.ru/packages/budgetgovru-oksm.
5. Общероссийский классификатор валют — справочник содержит информацию о наименовании валюты, о цифровом и буквенном коде валюты, наименования стран и территорий, в которых данная валюта является денежной единицей. Ссылка: https://data.apicrafter.ru/packages/budgetgovru-okv.
Представленные наборы данных опубликованы как открытые данные и доступны для скачивания.
Больше данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru
Если вы представляете некоммерческий, исследовательский или научный проект, и хотите получить данные, уже опубликованные на DataCrafter, но имеющие ограничения, напишите нам на эл. почту [email protected] с запросом.
#классификатор #справочник #opendata #datacrafter
4. Общероссийский классификатор стран мира — справочник содержит информацию об идентификации стран мира. Структурно состоит из трех блоков: цифровая идентификация, наименование, буквенная идентификация. Ссылка: https://data.apicrafter.ru/packages/budgetgovru-oksm.
5. Общероссийский классификатор валют — справочник содержит информацию о наименовании валюты, о цифровом и буквенном коде валюты, наименования стран и территорий, в которых данная валюта является денежной единицей. Ссылка: https://data.apicrafter.ru/packages/budgetgovru-okv.
Представленные наборы данных опубликованы как открытые данные и доступны для скачивания.
Больше данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru
Если вы представляете некоммерческий, исследовательский или научный проект, и хотите получить данные, уже опубликованные на DataCrafter, но имеющие ограничения, напишите нам на эл. почту [email protected] с запросом.
#классификатор #справочник #opendata #datacrafter
DataCrafter
Общероссийский классификатор организационно-правовых форм
Справочник содержит информацию об организационно-правовых формах юридических лиц, являющихся коммерческими или некоммерческими организациями; организаций, созданных в соответствии с законодательством без прав юридического лица, и международных организаций…
Если вы изучаете сферу образования, предлагаем вам воспользоваться наборами данных, опубликованными в каталоге DataCrafter:
— Сводный реестр лицензий на осуществление образовательной деятельности
https://data.apicrafter.ru/packages/eduorgsreg
— Реестр организаций, осуществляющих образовательную деятельность по аккредитованным образовательным программам
https://data.apicrafter.ru/packages/eduorgsaccred
— Реестр госзаданий — данные доступны по API. https://data.apicrafter.ru/packages/budgetgovru-regstatetask
Все данные доступны по API, для подключения к которому нужно зарегистрироваться.
Больше данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru
Если вы представляете некоммерческий, исследовательский или научный проект, и хотите получить данные, уже опубликованные на DataCrafter, но имеющие ограничения, напишите нам на эл. почту [email protected] с запросом.
— Сводный реестр лицензий на осуществление образовательной деятельности
https://data.apicrafter.ru/packages/eduorgsreg
— Реестр организаций, осуществляющих образовательную деятельность по аккредитованным образовательным программам
https://data.apicrafter.ru/packages/eduorgsaccred
— Реестр госзаданий — данные доступны по API. https://data.apicrafter.ru/packages/budgetgovru-regstatetask
Все данные доступны по API, для подключения к которому нужно зарегистрироваться.
Больше данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru
Если вы представляете некоммерческий, исследовательский или научный проект, и хотите получить данные, уже опубликованные на DataCrafter, но имеющие ограничения, напишите нам на эл. почту [email protected] с запросом.
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто ищет международные данные и не знает где они могут быть, порталы и проекты данных ООН.
Многие недооценивают влияние открытости данных на работу межгосударственных организаций, между тем почти все они переходят к открытости данных как основе открытости их работы.
- UN Data Catalog - каталог данных ООН. 4500+ датасетов от 76 структур ООН
- UnData - портал данных подразделения статистики ООН. API, выгрузка данных
- UN Comtrade Database - детальные данные по международной торговле. API, выгрузка данных
- Human Development Reports Data - данные индекса человеческого капитала UNDP. Выгрузка данных
- Urban Indicators Database - база городских индикаторов Unhabitat. Выгрузка данных
- Refugee Data Finder - базы данных по беженцам от UNHCR. Выгрузка данных
- UN Covid-19 data hub - хаб данных по COVID-19 от UNStata DESA
- UN Women data portal - портал данных UN Women
- COVID-19 data portal - портал данных по COVID-19 от UN Info
- UNOps Open data - открытые данные по стандарту IATI по операциям UNOPS
- Migration Data Portal - портал данных по миграции IOM
- UNIDO Statistics Data Portal - портал статических данных UNIDO
- FAOSTAT - статистика сельского хозяйства на портале FAO
- UNICEF Data - данные UNICEF
- UN ESCWA Data Portal - портал открытых данных UN ESCWA
А также многочисленные другие порталы и разделы с открытыми данным у других структур ООН.
#datasets #opendata #un
Многие недооценивают влияние открытости данных на работу межгосударственных организаций, между тем почти все они переходят к открытости данных как основе открытости их работы.
- UN Data Catalog - каталог данных ООН. 4500+ датасетов от 76 структур ООН
- UnData - портал данных подразделения статистики ООН. API, выгрузка данных
- UN Comtrade Database - детальные данные по международной торговле. API, выгрузка данных
- Human Development Reports Data - данные индекса человеческого капитала UNDP. Выгрузка данных
- Urban Indicators Database - база городских индикаторов Unhabitat. Выгрузка данных
- Refugee Data Finder - базы данных по беженцам от UNHCR. Выгрузка данных
- UN Covid-19 data hub - хаб данных по COVID-19 от UNStata DESA
- UN Women data portal - портал данных UN Women
- COVID-19 data portal - портал данных по COVID-19 от UN Info
- UNOps Open data - открытые данные по стандарту IATI по операциям UNOPS
- Migration Data Portal - портал данных по миграции IOM
- UNIDO Statistics Data Portal - портал статических данных UNIDO
- FAOSTAT - статистика сельского хозяйства на портале FAO
- UNICEF Data - данные UNICEF
- UN ESCWA Data Portal - портал открытых данных UN ESCWA
А также многочисленные другие порталы и разделы с открытыми данным у других структур ООН.
#datasets #opendata #un
data.unhabitat.org
Urban Indicators Database
Explore, visualize, compare and download urban indicators data
Обновления в каталоге APICrafter
Что нового
1. Данные о пакетах данных теперь публикуются более компактно. Страница пакета данных теперь включает сведения о характеристиках, таблицах и сборках данных вместе. Например [1] [2]
2. Таблицы открытых наборов данных теперь можно скачать в форматах JSONl, CSV и Parquet. Ссылки на данные публикуются на странице таблицы, например, "Точки обмена" [3]
Экспорт данных сейчас работает со следующими ограничениями:
- экспорт только для наборов данных менее чем с 100 тысячами записей
- форматы csv и parquet доступны только для таблиц без вложенных объектов
- сборки данных включают все данные и доступны всегда
Формат Parquet [4] популярен в data science и активно используется с помощью Jupyter Notebook.
Мы обязательно опубликуем примеры его использования.
Ссылки:
[1] https://tinyurl.com/2s3vuxaf
[2] https://tinyurl.com/2p89vp2k
[3] https://tinyurl.com/yckma22e
[4] https://tinyurl.com/mr4xjdmd
#apicrafter #datascience #datasets #parquet #json #csv
Что нового
1. Данные о пакетах данных теперь публикуются более компактно. Страница пакета данных теперь включает сведения о характеристиках, таблицах и сборках данных вместе. Например [1] [2]
2. Таблицы открытых наборов данных теперь можно скачать в форматах JSONl, CSV и Parquet. Ссылки на данные публикуются на странице таблицы, например, "Точки обмена" [3]
Экспорт данных сейчас работает со следующими ограничениями:
- экспорт только для наборов данных менее чем с 100 тысячами записей
- форматы csv и parquet доступны только для таблиц без вложенных объектов
- сборки данных включают все данные и доступны всегда
Формат Parquet [4] популярен в data science и активно используется с помощью Jupyter Notebook.
Мы обязательно опубликуем примеры его использования.
Ссылки:
[1] https://tinyurl.com/2s3vuxaf
[2] https://tinyurl.com/2p89vp2k
[3] https://tinyurl.com/yckma22e
[4] https://tinyurl.com/mr4xjdmd
#apicrafter #datascience #datasets #parquet #json #csv
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве небольшого пред-анонса, где-то через 1-2 недели планируем обновление DataCrafter'а в виде доступного сервиса идентификации типов данных. Сейчас в DataCrafter'е 76399 полей данных из которых 9722 автоматически классифицированы по классам вот [1]. Пока это делалось внутренним движком обрабатывающим данные в таблицах MongoDB и работающем по базе частично закодированных правил. Этот же движок делался для автоматизации анализа качества датасетов.
Этот код сейчас отчуждается и активно тестируется.
А сами правила переносятся из кода в YAML формат. Сейчас это уже 67 правил из которых 40 про то как называются поля, 27 про то что в них содержится и ещё выявление дат делается хоть и 1 правилом, но по 312 шаблонам.
Вначале появится открытый сервис и API по такой классификации для CSV файлов и сейчас я думаю над тем стоит ли переводить его в open source.
Ссылки:
[1] https://data.apicrafter.ru/class
#openservices #datacrafter #apicrafter #data #dataclassification
Этот код сейчас отчуждается и активно тестируется.
А сами правила переносятся из кода в YAML формат. Сейчас это уже 67 правил из которых 40 про то как называются поля, 27 про то что в них содержится и ещё выявление дат делается хоть и 1 правилом, но по 312 шаблонам.
Вначале появится открытый сервис и API по такой классификации для CSV файлов и сейчас я думаю над тем стоит ли переводить его в open source.
Ссылки:
[1] https://data.apicrafter.ru/class
#openservices #datacrafter #apicrafter #data #dataclassification