Всем привет!
В этом канале будут публиковаться новости проекта APICrafter включая анонсы новых API, новых данных и продуктов.
Сейчас в режим бета-тестирования переходит новый продукт, каталог данных DataCrafter где собраны первичные базы данных более чем на 200 гигабайт структурированных данных https://beta.apicrafter.ru.
Последними туда загружены данные в сфере культуры в виде 59 наборов данных https://beta.apicrafter.ru/topics/culture включая данные большого объёма такие как:
- культурные события: 1,08 миллиона записей, 5.1 ГБ https://beta.apicrafter.ru/packages/mkrf-events
- реестр объектов культурного наследия: 146 тысяч записей, 27 ГБ https://beta.apicrafter.ru/packages/mkrf-egrkn
#apicrafter #datasets
В этом канале будут публиковаться новости проекта APICrafter включая анонсы новых API, новых данных и продуктов.
Сейчас в режим бета-тестирования переходит новый продукт, каталог данных DataCrafter где собраны первичные базы данных более чем на 200 гигабайт структурированных данных https://beta.apicrafter.ru.
Последними туда загружены данные в сфере культуры в виде 59 наборов данных https://beta.apicrafter.ru/topics/culture включая данные большого объёма такие как:
- культурные события: 1,08 миллиона записей, 5.1 ГБ https://beta.apicrafter.ru/packages/mkrf-events
- реестр объектов культурного наследия: 146 тысяч записей, 27 ГБ https://beta.apicrafter.ru/packages/mkrf-egrkn
#apicrafter #datasets
apicrafter.ru
API Crafter
В раздел Инфраструктура добавлены 13 наборов данных публикуемых Росимуществом, общим объёмом в 700 мегабайт.
Самый большой из них Реестр Федерального имущества: cведения о движимом имуществе, первоначальная стоимость которого равна или превышает 500 тыс. рублей, и особо ценном движимом имуществе (независимо от его стоимости) объёмом 1,112,641 записей, 261.1 MB
#datasets
Самый большой из них Реестр Федерального имущества: cведения о движимом имуществе, первоначальная стоимость которого равна или превышает 500 тыс. рублей, и особо ценном движимом имуществе (независимо от его стоимости) объёмом 1,112,641 записей, 261.1 MB
#datasets
Обновили классификацию объектов в DataCrafter'е. Теперь классифицированы 4405 полей, это 25% от общего их числа.
Добавлены новые классификационные типы:
- Код бюджета Российской Федерации (budgetcode)
- Название кода бюджета Российской Федерации (budgetname)
- Логические типы данных, булевый тип (boolean)
- Код вида расходов (kvrcode)
- Наименование вида расходов (kvrname)
- Уникальный идентификатор MongoDb (mongodbid) - используется внутри системы, не передаётся пользователям поскольку может меняться при перезагрузке данных
- Код РНФИ в реестрах Росимущества (rnfi)
А также многие другие классификационные коды.
Также в систему были загружены данные реестров каталогов открытых данных таких как hubofdata.ru, data.gov.ru и ngodata.ru
#classification #datasets
Добавлены новые классификационные типы:
- Код бюджета Российской Федерации (budgetcode)
- Название кода бюджета Российской Федерации (budgetname)
- Логические типы данных, булевый тип (boolean)
- Код вида расходов (kvrcode)
- Наименование вида расходов (kvrname)
- Уникальный идентификатор MongoDb (mongodbid) - используется внутри системы, не передаётся пользователям поскольку может меняться при перезагрузке данных
- Код РНФИ в реестрах Росимущества (rnfi)
А также многие другие классификационные коды.
Также в систему были загружены данные реестров каталогов открытых данных таких как hubofdata.ru, data.gov.ru и ngodata.ru
#classification #datasets
Новые наборы данных в APICrafter:
- Кадастровая оценка недвижимости в Санкт-Петербурге https://beta.apicrafter.ru/packages/commimspbcadastr/tables по зданиям, земельным участкам, машиноместам и тд. всего чуть менее 268 тысяч объектов
- Объекты недвижимости комитета имущества Санкт-Петербурка https://beta.apicrafter.ru/packages/commimspbrealestate/tables чуть менее 49 тысяч объектов включая: Нестационарные торговые объекты, Объекты творческих мастерских, Свободные объекты и другие
- Реестр собственности Санкт-Петербурга https://beta.apicrafter.ru/packages/commimspbrealty/tables включая недвижимое и движимое имущество. Всего 364 тысячи объектов
Все эти данные находятся в тематической группе "Инфраструктура" https://beta.apicrafter.ru/topics/infrastructure и по всем есть сведения о их местонахождении, кадастровом номере и адресе.
Данные доступны через API после регистрации на портале DataCrafter - https://beta.apicrafter.ru, каталоге первичных данных проекта APICrafter
#spb #datasets #realty
- Кадастровая оценка недвижимости в Санкт-Петербурге https://beta.apicrafter.ru/packages/commimspbcadastr/tables по зданиям, земельным участкам, машиноместам и тд. всего чуть менее 268 тысяч объектов
- Объекты недвижимости комитета имущества Санкт-Петербурка https://beta.apicrafter.ru/packages/commimspbrealestate/tables чуть менее 49 тысяч объектов включая: Нестационарные торговые объекты, Объекты творческих мастерских, Свободные объекты и другие
- Реестр собственности Санкт-Петербурга https://beta.apicrafter.ru/packages/commimspbrealty/tables включая недвижимое и движимое имущество. Всего 364 тысячи объектов
Все эти данные находятся в тематической группе "Инфраструктура" https://beta.apicrafter.ru/topics/infrastructure и по всем есть сведения о их местонахождении, кадастровом номере и адресе.
Данные доступны через API после регистрации на портале DataCrafter - https://beta.apicrafter.ru, каталоге первичных данных проекта APICrafter
#spb #datasets #realty
Новые наборы данных в APICrafter:
- Регистровая книга речных судов в Российской Федерации https://beta.apicrafter.ru/tables/rivreg/rivreg более 23 тысяч судов и сведений о них включая: реестровый номер, наименование, строительный номер, проект судна, тип и назначение и многое другое.
- Реестр организаций признанных Минюстом России нежелательными https://beta.apicrafter.ru/packages/mjunwantedorgs небольшой набор данных, можно скачать его напрямую https://beta.apicrafter.ru/packages/mjunwantedorgs/builds
Сейчас APICrafter реже обновляется отдельными наборами данных поскольку мы работаем над внесением сразу большого числа (сотни и тысячи!) датасетов разом и для этого обновляем код чтобы эти наборы данных лучше отображались и с ними можно было работать.
Скоро данных будет больше!
#opendata #datasets
- Регистровая книга речных судов в Российской Федерации https://beta.apicrafter.ru/tables/rivreg/rivreg более 23 тысяч судов и сведений о них включая: реестровый номер, наименование, строительный номер, проект судна, тип и назначение и многое другое.
- Реестр организаций признанных Минюстом России нежелательными https://beta.apicrafter.ru/packages/mjunwantedorgs небольшой набор данных, можно скачать его напрямую https://beta.apicrafter.ru/packages/mjunwantedorgs/builds
Сейчас APICrafter реже обновляется отдельными наборами данных поскольку мы работаем над внесением сразу большого числа (сотни и тысячи!) датасетов разом и для этого обновляем код чтобы эти наборы данных лучше отображались и с ними можно было работать.
Скоро данных будет больше!
#opendata #datasets
DataCrafter
Перечень иностранных и международных неправительственных организаций, деятельность которых признана нежелательной на территории…
Перечень иностранных и международных неправительственных организаций, деятельность которых признана нежелательной на территории Российской Федерации согласно решениям Генеральной прокуратуры РФ и Минюста России
Большое обновление в данных DataCrafter'а. В каталог загружены 1514 наборов данных о климате и погоде из Единой государственной системы информации об обстановке в Мировом океане (ЕСИМО). Все данные были преобразованы в унифицированные форматы и доступны в каталоге как открытые данные через API или в виде сборок/слепков данных.
Данные загружены вместе с описанием каждого поля, сведения доступны в разделе "Документация" к каждой таблице. Например, документация к набору данных Оперативные данные о сопутствующих метеонаблюдениях, передаваемых по коду FM-18 X BUOY. Период хранения в БД.
Несмотря на то что многие данные в системе ЕСИМО являются архивными, они могут пригодиться исследователям работающим с данными о мировом океане, климатологам, специалистам по работе с погодными данными и данными экономики моря.
Для нас загрузка такого числа наборов данных оказалась вызовом по причине числа наборов данных, всё таки 1514 наборов из системы ЕСИМО - это почти в 4 раза больше 393 наборов данных которые ранее к нам были загружены и сейчас интерфейс уже недостаточно удобен для работы с таким числом наборов данных, но мы уже работаем над его доработкой.
Второй вызов был в том что данные имеют свою специфику и текущие алгоритмы распознавания типов данных определяют типы данных наборов данных из ЕСИМО достаточно ограниченно. В ближайшее время начнётся работа по классификации этих полей и доработке алгоритмов под эту задачу.
#datasets #esimo #climate #weather #datacrafter #data
Данные загружены вместе с описанием каждого поля, сведения доступны в разделе "Документация" к каждой таблице. Например, документация к набору данных Оперативные данные о сопутствующих метеонаблюдениях, передаваемых по коду FM-18 X BUOY. Период хранения в БД.
Несмотря на то что многие данные в системе ЕСИМО являются архивными, они могут пригодиться исследователям работающим с данными о мировом океане, климатологам, специалистам по работе с погодными данными и данными экономики моря.
Для нас загрузка такого числа наборов данных оказалась вызовом по причине числа наборов данных, всё таки 1514 наборов из системы ЕСИМО - это почти в 4 раза больше 393 наборов данных которые ранее к нам были загружены и сейчас интерфейс уже недостаточно удобен для работы с таким числом наборов данных, но мы уже работаем над его доработкой.
Второй вызов был в том что данные имеют свою специфику и текущие алгоритмы распознавания типов данных определяют типы данных наборов данных из ЕСИМО достаточно ограниченно. В ближайшее время начнётся работа по классификации этих полей и доработке алгоритмов под эту задачу.
#datasets #esimo #climate #weather #datacrafter #data
DataCrafter
Климат и погода
Климатические и погодные данные включая данные Росгидромета, данные об обстановке мирового океана, данные измерений погодных станций
Forwarded from Ivan Begtin (Ivan Begtin)
Я сейчас гружу в APICrafter кучу данных с сайта Росстата [1] в раздел "Статистика" [2] и чуть позже сделаем официальный пост от проекта с тем сколько новых наборов данных появилось, а пока скажу вам друзья что всё что мы слышали или слышим про качество работы с открытыми данными у Росстата - это сказки.
Чтобы было понятно:
- с сайта Росстата скачано 1547 наборов данных
- у 742 наборов однотипная структура из CSV файлов с полями: area,gender,urban,value (все их можно было опубликовать как один набор данных)
- ещё 617 наборов данных это однотипные показатели в формате SDMX без документации, также их можно было опубликовать как один набор данных
- надо ли объяснять что это получается куча мелких файлов, эдакое "необоснованное дробление данных" (c) ради числа наборов данных
- половина данных опубликовано как CSV, другая половина как XML. Файлы CSV имеют ту особенность что половина с разделителем запятой (,), половина с разделителем (;).
- у 20 наборов данных у файлов CSV отсутствуют заголовки
- итого, если делать всё по уму, то у Росстата на сайте было бы всего 188 наборов данных. А если ещё объединить в один датасет вакансии всех террорганов Росстата то и всего то около 103-105 наборов данных. Чувствуете разницу?
- некоторые из наборов данных имеют расширение csv, а внутри это zip файлы. А иногда это zip файлы внутри которых файлы csv которые... на самом деле не csv, а тоже zip файлы
- около 30% опубликованных CSV файлов в кодировке windows-1251, остальные в UTF-8, нигде при этом не указано что в каком виде.
- несколько наборов данных XML - это дампы показателей из внутренней BI системы. Без документации.
В итоге пришлось дорабатывать код подготовки пакетов данных для автоматического распознавания кодировки, разделителей и выявления CSV файлов без заголовков. Это не так уж сложно, но окунаться в ад работы с плохоформатированными CSV файлами - это то ещё удовольствие.
А в качестве послесловия я добавлю что это ещё далеко не самый худший ФОИВ по опубликованию данных. Да, много где ситуация сильно хуже, но Росстат тоже, умеет удивлять отсутствием управления данными и таким вот дроблением датасетов на кучу мелких наборов данных.
Как бы то ни было, все они будут у нас в каталоге сегодня уже к концу дня. И, похоже, вводить критерии качества каталогов данных важно не меньше качества содержания наборов данных.
Ссылки:
[1] https://rosstat.gov.ru/opendata
[2] https://data.apicrafter.ru/topics/statistics
#opendata #datasets
Чтобы было понятно:
- с сайта Росстата скачано 1547 наборов данных
- у 742 наборов однотипная структура из CSV файлов с полями: area,gender,urban,value (все их можно было опубликовать как один набор данных)
- ещё 617 наборов данных это однотипные показатели в формате SDMX без документации, также их можно было опубликовать как один набор данных
- надо ли объяснять что это получается куча мелких файлов, эдакое "необоснованное дробление данных" (c) ради числа наборов данных
- половина данных опубликовано как CSV, другая половина как XML. Файлы CSV имеют ту особенность что половина с разделителем запятой (,), половина с разделителем (;).
- у 20 наборов данных у файлов CSV отсутствуют заголовки
- итого, если делать всё по уму, то у Росстата на сайте было бы всего 188 наборов данных. А если ещё объединить в один датасет вакансии всех террорганов Росстата то и всего то около 103-105 наборов данных. Чувствуете разницу?
- некоторые из наборов данных имеют расширение csv, а внутри это zip файлы. А иногда это zip файлы внутри которых файлы csv которые... на самом деле не csv, а тоже zip файлы
- около 30% опубликованных CSV файлов в кодировке windows-1251, остальные в UTF-8, нигде при этом не указано что в каком виде.
- несколько наборов данных XML - это дампы показателей из внутренней BI системы. Без документации.
В итоге пришлось дорабатывать код подготовки пакетов данных для автоматического распознавания кодировки, разделителей и выявления CSV файлов без заголовков. Это не так уж сложно, но окунаться в ад работы с плохоформатированными CSV файлами - это то ещё удовольствие.
А в качестве послесловия я добавлю что это ещё далеко не самый худший ФОИВ по опубликованию данных. Да, много где ситуация сильно хуже, но Росстат тоже, умеет удивлять отсутствием управления данными и таким вот дроблением датасетов на кучу мелких наборов данных.
Как бы то ни было, все они будут у нас в каталоге сегодня уже к концу дня. И, похоже, вводить критерии качества каталогов данных важно не меньше качества содержания наборов данных.
Ссылки:
[1] https://rosstat.gov.ru/opendata
[2] https://data.apicrafter.ru/topics/statistics
#opendata #datasets
rosstat.gov.ru
Росстат — Открытые данные
В каталог DataCrafter загружены данные каталога справочников и классификаторов Минздрава РФ nsi.rosminzdrav.ru, это 1520 справочников помещенных в группы Справочники и классификаторы и Медицина. Их совокупный объём составляет более 7 гигабайт.
Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.
Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей
В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.
#opendata #datacatalogs #medicine #data #datasets
Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.
Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей
В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.
#opendata #datacatalogs #medicine #data #datasets
DataCrafter
Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем (10-й пересмотр, том…
<p><span style="color:black">Данный справочник является электронным представлением </span><span style="color:black">XX</span> <span style="color:black">класса Тома 3 Международной статистической классификации болезней и проблем, связанных со здоровьем, и…
В каталог APICrafter'а загружен архив экстренных оповещений Росгидромета с 2013 по 2021 год включительно, актуальные сведения на 28 октября 2021 года [1]. В архиве 7672 записи, общим объёмом 2,9 мегабайта. Поскольку в первоисточнике присутствуют только записи о точной дате и времени оповещения и краткий текст, то и здесь представлены эти же данные.
Данные можно скачать без авторизации в формате пакета данных в формате MongoDB (BSON) [2], а также через API.
Они могут быть полезны исследователям обучающих алгоритмы выявления именованных объектов, разработчикам систем оповещения с расшифровкой упоминаемых географических объектов и погодных явлений, журналистам исследующим природные катастрофы и их частоту в нашей стране.
Ссылки:
[1] https://data.apicrafter.ru/packages/meteorf-extramessage
[2] https://data.apicrafter.ru/packages/meteorf-extramessage/builds
#opendata #datasets #weather
Данные можно скачать без авторизации в формате пакета данных в формате MongoDB (BSON) [2], а также через API.
Они могут быть полезны исследователям обучающих алгоритмы выявления именованных объектов, разработчикам систем оповещения с расшифровкой упоминаемых географических объектов и погодных явлений, журналистам исследующим природные катастрофы и их частоту в нашей стране.
Ссылки:
[1] https://data.apicrafter.ru/packages/meteorf-extramessage
[2] https://data.apicrafter.ru/packages/meteorf-extramessage/builds
#opendata #datasets #weather
DataCrafter
Архив экстренных сообщений Росгидромета
Экстренные сообщения с официального сайта Росгидромета http://www.meteorf.ru/product/emergency/ с 2013 по 2021 годы
В каталог Datacrafter'а загружены данные 19 реестров и справочников из Федерального информационного фонд по обеспечению единства измерений (ФГИС Аршин), государственной информационной системы в ведении Росстандарта. В том числе такие наборы данных как:
- Аттестованные методики (методы) измерений - 39 тысяч записей
- Эталоны единиц величин - 114 тысяч записей
- Утверждённые типы средств измерений - 99 тысяч записей
Эти данные, а также остальные наборы данных загружены в раздел Справочники и классификаторы.
Все они доступны для бесплатного открытого использования через API DataCrafter и с возможностью получить весь набор данных в виде базы MongoDB.
Далее продолжится работа по классификаци и анализу всех загруженных метаданных в этих наборах данных.
В будущем ждите больше данных, идёт работа по агрегации крупнейших каталогов данных.
#opendata #datasets #metrology
- Аттестованные методики (методы) измерений - 39 тысяч записей
- Эталоны единиц величин - 114 тысяч записей
- Утверждённые типы средств измерений - 99 тысяч записей
Эти данные, а также остальные наборы данных загружены в раздел Справочники и классификаторы.
Все они доступны для бесплатного открытого использования через API DataCrafter и с возможностью получить весь набор данных в виде базы MongoDB.
Далее продолжится работа по классификаци и анализу всех загруженных метаданных в этих наборах данных.
В будущем ждите больше данных, идёт работа по агрегации крупнейших каталогов данных.
#opendata #datasets #metrology
DataCrafter
Справочники и классификаторы
Наборы данных справочников и классификаторов
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто ищет международные данные и не знает где они могут быть, порталы и проекты данных ООН.
Многие недооценивают влияние открытости данных на работу межгосударственных организаций, между тем почти все они переходят к открытости данных как основе открытости их работы.
- UN Data Catalog - каталог данных ООН. 4500+ датасетов от 76 структур ООН
- UnData - портал данных подразделения статистики ООН. API, выгрузка данных
- UN Comtrade Database - детальные данные по международной торговле. API, выгрузка данных
- Human Development Reports Data - данные индекса человеческого капитала UNDP. Выгрузка данных
- Urban Indicators Database - база городских индикаторов Unhabitat. Выгрузка данных
- Refugee Data Finder - базы данных по беженцам от UNHCR. Выгрузка данных
- UN Covid-19 data hub - хаб данных по COVID-19 от UNStata DESA
- UN Women data portal - портал данных UN Women
- COVID-19 data portal - портал данных по COVID-19 от UN Info
- UNOps Open data - открытые данные по стандарту IATI по операциям UNOPS
- Migration Data Portal - портал данных по миграции IOM
- UNIDO Statistics Data Portal - портал статических данных UNIDO
- FAOSTAT - статистика сельского хозяйства на портале FAO
- UNICEF Data - данные UNICEF
- UN ESCWA Data Portal - портал открытых данных UN ESCWA
А также многочисленные другие порталы и разделы с открытыми данным у других структур ООН.
#datasets #opendata #un
Многие недооценивают влияние открытости данных на работу межгосударственных организаций, между тем почти все они переходят к открытости данных как основе открытости их работы.
- UN Data Catalog - каталог данных ООН. 4500+ датасетов от 76 структур ООН
- UnData - портал данных подразделения статистики ООН. API, выгрузка данных
- UN Comtrade Database - детальные данные по международной торговле. API, выгрузка данных
- Human Development Reports Data - данные индекса человеческого капитала UNDP. Выгрузка данных
- Urban Indicators Database - база городских индикаторов Unhabitat. Выгрузка данных
- Refugee Data Finder - базы данных по беженцам от UNHCR. Выгрузка данных
- UN Covid-19 data hub - хаб данных по COVID-19 от UNStata DESA
- UN Women data portal - портал данных UN Women
- COVID-19 data portal - портал данных по COVID-19 от UN Info
- UNOps Open data - открытые данные по стандарту IATI по операциям UNOPS
- Migration Data Portal - портал данных по миграции IOM
- UNIDO Statistics Data Portal - портал статических данных UNIDO
- FAOSTAT - статистика сельского хозяйства на портале FAO
- UNICEF Data - данные UNICEF
- UN ESCWA Data Portal - портал открытых данных UN ESCWA
А также многочисленные другие порталы и разделы с открытыми данным у других структур ООН.
#datasets #opendata #un
data.unhabitat.org
Urban Indicators Database
Explore, visualize, compare and download urban indicators data
Обновления в каталоге APICrafter
Что нового
1. Данные о пакетах данных теперь публикуются более компактно. Страница пакета данных теперь включает сведения о характеристиках, таблицах и сборках данных вместе. Например [1] [2]
2. Таблицы открытых наборов данных теперь можно скачать в форматах JSONl, CSV и Parquet. Ссылки на данные публикуются на странице таблицы, например, "Точки обмена" [3]
Экспорт данных сейчас работает со следующими ограничениями:
- экспорт только для наборов данных менее чем с 100 тысячами записей
- форматы csv и parquet доступны только для таблиц без вложенных объектов
- сборки данных включают все данные и доступны всегда
Формат Parquet [4] популярен в data science и активно используется с помощью Jupyter Notebook.
Мы обязательно опубликуем примеры его использования.
Ссылки:
[1] https://tinyurl.com/2s3vuxaf
[2] https://tinyurl.com/2p89vp2k
[3] https://tinyurl.com/yckma22e
[4] https://tinyurl.com/mr4xjdmd
#apicrafter #datascience #datasets #parquet #json #csv
Что нового
1. Данные о пакетах данных теперь публикуются более компактно. Страница пакета данных теперь включает сведения о характеристиках, таблицах и сборках данных вместе. Например [1] [2]
2. Таблицы открытых наборов данных теперь можно скачать в форматах JSONl, CSV и Parquet. Ссылки на данные публикуются на странице таблицы, например, "Точки обмена" [3]
Экспорт данных сейчас работает со следующими ограничениями:
- экспорт только для наборов данных менее чем с 100 тысячами записей
- форматы csv и parquet доступны только для таблиц без вложенных объектов
- сборки данных включают все данные и доступны всегда
Формат Parquet [4] популярен в data science и активно используется с помощью Jupyter Notebook.
Мы обязательно опубликуем примеры его использования.
Ссылки:
[1] https://tinyurl.com/2s3vuxaf
[2] https://tinyurl.com/2p89vp2k
[3] https://tinyurl.com/yckma22e
[4] https://tinyurl.com/mr4xjdmd
#apicrafter #datascience #datasets #parquet #json #csv
Forwarded from Ivan Begtin (Ivan Begtin)
Масштабное обновление алгоритмов классификации данных в DataCrafter'е. Теперь из 76500 полей наборов данных классифицированы 19 501 поле, это около 25,5%. Учитывая что многие поля надо отмечать как "неклассифицируемые" потому что они содержат только расчёт численные данные, то 25,5% от всех полей это очень много, можно сказать рекорд!
Классификация данных - это процесс при котором определяется природа данных содержащихся в таблицах/файлах/наборах данных. Например, идентификация кодов ИНН/ОГРН/КПП организация, ФИО / Имён / Отчеств / Фамилий физических лиц и ещё многое другое.
При этом обновлении были добавлены новые идентификаторы и правила их распознавания:
- ruscity - Российский город
- rusdayofweek - День недели на русском языке (понедельник, вторник и т.д.)
- runpa - нормативно-правовые и распорядительные документы. Законы, постановления, распоряжения и приказы
- mimetype - типы MIME, как правило ассоциированные с файлами
- filename - название файла
- rusworkposition - должности. Например: ректор,директор,и.о. директора и т.д.
- timerange - временные промежутки. Например: 10:00-12:00 или 21:10-21:30
А также многие другие. Сейчас в DataCrafter внесено 90 классов данных [1] для идентификации которых используется 134 правила идентифицирующих данные и 304 правила идентифицирующих дату/время. Дата и время идентифицируются отдельно поскольку ещё в 2017 году я заопенсорсил движок qddate [2] определяющая даты в 348 шаблонах и на 9 языках. Движок, кстати, делался для библиотеки newsworker [3] по извлечению новостей из сайтов не отдающих RSS ленты, на основе шаблонов текстов, в основе которых даты. Эту библиотеку я тогда же заопенсорсил и слегка подзабросил, но она всё ещё вполне работает и актуальна.
Чтобы достичь этого результата внутренний движок классификации данных был полностью переписан. Большая часть правил теперь описывается в конфигурационных настраиваемых файлах YAML. При применении правил они могут фильтроваться по контексту, по языку и по точности. Кроме коллекий в MongoDB теперь поддерживаются файлы CSV и JSONl. Через некоторое время рабочая версия классификатора появится в виде страницы в интернете и телеграм бота (телеграм бот уже тестируется).
Сейчас 72 из 135 правил написаны под русский язык и Россию. Они учитывают, или принятые в России классификаторы, или русскоязычное кодирование информации. Следующий шаг после открытия версии классификатора для публичного тестирования - это поддержка классификации данных происходящих из других стран.
Ссылки:
[1] https://data.apicrafter.ru/class
[2] https://github.com/ivbeg/qddate
[3] https://github.com/ivbeg/newsworker
#opendata #data #datasets #datacrafter #apicrafter #dataclassification
Классификация данных - это процесс при котором определяется природа данных содержащихся в таблицах/файлах/наборах данных. Например, идентификация кодов ИНН/ОГРН/КПП организация, ФИО / Имён / Отчеств / Фамилий физических лиц и ещё многое другое.
При этом обновлении были добавлены новые идентификаторы и правила их распознавания:
- ruscity - Российский город
- rusdayofweek - День недели на русском языке (понедельник, вторник и т.д.)
- runpa - нормативно-правовые и распорядительные документы. Законы, постановления, распоряжения и приказы
- mimetype - типы MIME, как правило ассоциированные с файлами
- filename - название файла
- rusworkposition - должности. Например: ректор,директор,и.о. директора и т.д.
- timerange - временные промежутки. Например: 10:00-12:00 или 21:10-21:30
А также многие другие. Сейчас в DataCrafter внесено 90 классов данных [1] для идентификации которых используется 134 правила идентифицирующих данные и 304 правила идентифицирующих дату/время. Дата и время идентифицируются отдельно поскольку ещё в 2017 году я заопенсорсил движок qddate [2] определяющая даты в 348 шаблонах и на 9 языках. Движок, кстати, делался для библиотеки newsworker [3] по извлечению новостей из сайтов не отдающих RSS ленты, на основе шаблонов текстов, в основе которых даты. Эту библиотеку я тогда же заопенсорсил и слегка подзабросил, но она всё ещё вполне работает и актуальна.
Чтобы достичь этого результата внутренний движок классификации данных был полностью переписан. Большая часть правил теперь описывается в конфигурационных настраиваемых файлах YAML. При применении правил они могут фильтроваться по контексту, по языку и по точности. Кроме коллекий в MongoDB теперь поддерживаются файлы CSV и JSONl. Через некоторое время рабочая версия классификатора появится в виде страницы в интернете и телеграм бота (телеграм бот уже тестируется).
Сейчас 72 из 135 правил написаны под русский язык и Россию. Они учитывают, или принятые в России классификаторы, или русскоязычное кодирование информации. Следующий шаг после открытия версии классификатора для публичного тестирования - это поддержка классификации данных происходящих из других стран.
Ссылки:
[1] https://data.apicrafter.ru/class
[2] https://github.com/ivbeg/qddate
[3] https://github.com/ivbeg/newsworker
#opendata #data #datasets #datacrafter #apicrafter #dataclassification
DataCrafter
Российский город
Название российского города в написании на русском языке.