Стоило мне чуток отвлечься на активный отдых на майские праздники так тут столько всего интересного не-произошло. В РФ правительство не-сменилось и в мире много чего ещё не-приключилось. А я уже очень скоро вернусь к регулярным текстам про каталоги данных, природу данных, инструменты, регулирование и не только.
В ближайшее время буду рассказывать про проекты с данными которые нельзя отнести к порталам данных, но де-факто которые такими являются. И что данных количественно там может быть многократно больше чем на других ресурсах.
#opendata #data #blogging
В ближайшее время буду рассказывать про проекты с данными которые нельзя отнести к порталам данных, но де-факто которые такими являются. И что данных количественно там может быть многократно больше чем на других ресурсах.
#opendata #data #blogging
Пример порталов с данными которые не порталы данных.
Порталы спортивных сообществ по обмену маршрутами и треками. В большинстве случаев когда альпинисты, яхтсмены, хайкеры и др. хотят поделиться своими маршрутами, они могут выложить где-то карту, а скорее KML или GPX файл где-то на собственных ресурсах, а могут и воспользоваться одним из онлайн сервисов таких как Wikiloc [1], AllTrails,TrailForks, Hikr и другие. К примеру Wikiloc позволяет выгружать треки в форматах KML, GPX и TCX (специальный формат от компании Garmin). В других сервисах чаще всего данные в GPX или в KML форматах.
Только крупных порталов с миллионами маршрутов в мире более десятка, а небольших и того больше. На них опубликовано более десятка миллионов маршрутов, чаще доступных после авторизации, но есть и те что полностью открыты. Всё это делает такие порталы одними из крупнейших порталов с геоданными, особенно если измерять в числе датасетов, а не в размерах файлов.
Ссылки:
[1] https://www.wikiloc.com
#opendata #datasets #data #dataportals #hiking #geodata
Порталы спортивных сообществ по обмену маршрутами и треками. В большинстве случаев когда альпинисты, яхтсмены, хайкеры и др. хотят поделиться своими маршрутами, они могут выложить где-то карту, а скорее KML или GPX файл где-то на собственных ресурсах, а могут и воспользоваться одним из онлайн сервисов таких как Wikiloc [1], AllTrails,TrailForks, Hikr и другие. К примеру Wikiloc позволяет выгружать треки в форматах KML, GPX и TCX (специальный формат от компании Garmin). В других сервисах чаще всего данные в GPX или в KML форматах.
Только крупных порталов с миллионами маршрутов в мире более десятка, а небольших и того больше. На них опубликовано более десятка миллионов маршрутов, чаще доступных после авторизации, но есть и те что полностью открыты. Всё это делает такие порталы одними из крупнейших порталов с геоданными, особенно если измерять в числе датасетов, а не в размерах файлов.
Ссылки:
[1] https://www.wikiloc.com
#opendata #datasets #data #dataportals #hiking #geodata
Про последние [не]изменения в российском правительстве написать что-то сложное поскольку всё это не про изменения, а про [не]изменения госполитики.
1. Развитие/восстановление открытости гос-ва не планируется. Формально в прошлом составе за неё отвечал Д. Григоренко, он же теперь ещё и курирует ИТ отрасль. И открытость, наверное, тоже. Наверное, потому что точно не скажешь, пропала тема из внутриполитической повестки.
2. Вместо открытости данных декларируется путь к предоставлению обезличенных датасетов для ИИ от чего выиграют некоторыегрёбанные монополии национальные чемпионы цифровой отрасли и силовики потому что эти самые "обезличенные" данные будут с бизнеса собирать и законопроект про это давно есть, его отложили, но не отменили.
3. Российский ГосТех хоть и сдох (был мертворождённым), но не похоронен. И хотя и ФКУ Гостех пытаются перезагрузить, а руководитель оттуда уже ушёл, самой идее Гостеха это уже не поможет.
—
Иначе говоря, ничего неожиданного.
#opendata #government #data #russia #govtech
1. Развитие/восстановление открытости гос-ва не планируется. Формально в прошлом составе за неё отвечал Д. Григоренко, он же теперь ещё и курирует ИТ отрасль. И открытость, наверное, тоже. Наверное, потому что точно не скажешь, пропала тема из внутриполитической повестки.
2. Вместо открытости данных декларируется путь к предоставлению обезличенных датасетов для ИИ от чего выиграют некоторые
3. Российский ГосТех хоть и сдох (был мертворождённым), но не похоронен. И хотя и ФКУ Гостех пытаются перезагрузить, а руководитель оттуда уже ушёл, самой идее Гостеха это уже не поможет.
—
Иначе говоря, ничего неожиданного.
#opendata #government #data #russia #govtech
Помимо данных о маршрутах, о которых я ранее писал [1], есть немало узкоспециализированных источников структурированных данных, не очень то полезных для дата аналитиков и data scientist'ов, но полезных кому то ещё. Например, это данные о 3D моделях, майндмапы и какое-то число других результатов активностей распространяемых в форматах с машиночитаемым экспортом.
Их немало, но применение ограничено и области специфические. Куда интереснее всё становится когда мы переходим от восприятия поиска данных не через призму их обнаружения (discover), а через призму их извлечения и создания (extract). Данные есть и их много внутри чего-то что само по себе данными не является: веб-страниц, PDF файлов, офисных документов и иных документов разметки.
К примеру, бесконечное число таблиц находится в научных статьях и их препринтах, или в публичных отчетах компаний, или в нормативных документах и отчетах госорганов. Иногда (редко) эти таблицы легко извлекаются тэгами в разметке, чаще они представлены в виде изображений. Есть такая очень прикладная задача и даже датасеты по извлечению таких таблиц. У IBM есть датасет FinTabNet [2] с большой коллекцией таблиц извлеченных из отчетов компаний из списка S&P 500. Есть несколько десятков исследователей в мире работающих только над темой автоматического аннотирования подобных таблиц, и есть успехи в этой работе.
Так почему бы не взять один из общедоступных алгоритмов извлечения и не прикрутить к поисковой системе вроде нашего Dateno и не получить сотни миллионов таблиц для индексирования? Вот это уже на 100% вопрос масштаба. Документов в мире значительно больше чем общедоступных данных (за исключением биоинформатики, физики частиц и спутниковых снимков). При этом нужна инфраструктура чтобы хранить первичные документы, обрабатывать их и готовить таблицы. Поисковик превратится из базы метаданных в крупнейшую базу данных, из маршрутизатора на сайты с первоисточниками, в замкнутую на себя экосистему.
Но очень соблазнительно и вполне реалистично. Такой подход - это одна из причин почему я давно говорю о том что превзойти поисковый индекс Google по датасетам несложно, вопрос только в размере ресурсов которые необходимо на это затратить.
И всегда важно помнить что это очень много маленьких датасетов, в то время как для data science, к примеру, нужны хорошо размеченные "большие данные".
Ссылки:
[1] https://yangx.top/begtin/5616
[2] https://developer.ibm.com/data/fintabnet/
#opendata #data #thoughts #datasets #dateno
Их немало, но применение ограничено и области специфические. Куда интереснее всё становится когда мы переходим от восприятия поиска данных не через призму их обнаружения (discover), а через призму их извлечения и создания (extract). Данные есть и их много внутри чего-то что само по себе данными не является: веб-страниц, PDF файлов, офисных документов и иных документов разметки.
К примеру, бесконечное число таблиц находится в научных статьях и их препринтах, или в публичных отчетах компаний, или в нормативных документах и отчетах госорганов. Иногда (редко) эти таблицы легко извлекаются тэгами в разметке, чаще они представлены в виде изображений. Есть такая очень прикладная задача и даже датасеты по извлечению таких таблиц. У IBM есть датасет FinTabNet [2] с большой коллекцией таблиц извлеченных из отчетов компаний из списка S&P 500. Есть несколько десятков исследователей в мире работающих только над темой автоматического аннотирования подобных таблиц, и есть успехи в этой работе.
Так почему бы не взять один из общедоступных алгоритмов извлечения и не прикрутить к поисковой системе вроде нашего Dateno и не получить сотни миллионов таблиц для индексирования? Вот это уже на 100% вопрос масштаба. Документов в мире значительно больше чем общедоступных данных (за исключением биоинформатики, физики частиц и спутниковых снимков). При этом нужна инфраструктура чтобы хранить первичные документы, обрабатывать их и готовить таблицы. Поисковик превратится из базы метаданных в крупнейшую базу данных, из маршрутизатора на сайты с первоисточниками, в замкнутую на себя экосистему.
Но очень соблазнительно и вполне реалистично. Такой подход - это одна из причин почему я давно говорю о том что превзойти поисковый индекс Google по датасетам несложно, вопрос только в размере ресурсов которые необходимо на это затратить.
И всегда важно помнить что это очень много маленьких датасетов, в то время как для data science, к примеру, нужны хорошо размеченные "большие данные".
Ссылки:
[1] https://yangx.top/begtin/5616
[2] https://developer.ibm.com/data/fintabnet/
#opendata #data #thoughts #datasets #dateno
В рубрике интересных каталогов данных, данные по астрономии и астрофизике. В РФ немало научных проектов в этой области в которых раскрываются данные используемые исследователями в разных странах. Например, SAI Open Clusters Catalog [1] базе открытых звезных класетров в Млечном Пути с экспортом данных в формате VOTable [2] продвигаемым International Virtual Observatory Alliance. По каждому кластеру отдельный файл с данными.
Другой пример, RCSED (Reference Catalog of galaxy SEDs) [3] каталог галактик с поиском по ним, данным по каждой галактике, открытым API и дампами полной базы [4].
В RCSED интегрирован доступ к данным через GAVO WIRR [5], виртуальную обсерваторию работающую через сотни/тысячи стандартизированных дата интерфейсов предоставляемыми научными коллективами астрофизиков по всему миру.
Ссылки:
[1] http://ocl.sai.msu.ru
[2] https://www.star.bris.ac.uk/~mbt/topcat/sun253/inVotable.html
[3] http://rcsed.sai.msu.ru/
[4] http://rcsed.sai.msu.ru/data/
[5] http://dc.g-vo.org/wirr/q/ui/static/wirr-help.shtml
#opendata #datacatalogs #astronomy #astrophysics #data
Другой пример, RCSED (Reference Catalog of galaxy SEDs) [3] каталог галактик с поиском по ним, данным по каждой галактике, открытым API и дампами полной базы [4].
В RCSED интегрирован доступ к данным через GAVO WIRR [5], виртуальную обсерваторию работающую через сотни/тысячи стандартизированных дата интерфейсов предоставляемыми научными коллективами астрофизиков по всему миру.
Ссылки:
[1] http://ocl.sai.msu.ru
[2] https://www.star.bris.ac.uk/~mbt/topcat/sun253/inVotable.html
[3] http://rcsed.sai.msu.ru/
[4] http://rcsed.sai.msu.ru/data/
[5] http://dc.g-vo.org/wirr/q/ui/static/wirr-help.shtml
#opendata #datacatalogs #astronomy #astrophysics #data
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Статистические данные Банка России в формате временных рядов теперь доступны по API и в виде машиночитаемых наборов данных
Всего доступно 49 статистических показателей, среди которых можно найти:
- статистику по ипотечному жилищному кредитованию
- структуру денежной массы
- объемы кредитов, предоставленных субъектам МСП
- платежный баланс РФ
- процентные ставки по вкладам физлиц в рублях
- сведения по кредитам нефинансовым организациям и физлицами
- и многое другое.
Также на сайте Банка России доступна подробная инструкция по работе с сервисом (https://www.cbr.ru/statistics/data-service/user_guide/) и документация к API (https://www.cbr.ru/statistics/data-service/APIdocuemntation/).
Отличная новость, т.к. не так часто нас балуют новыми открытыми данными, особенно финансовыми. Было бы здорово, если и другие финансовые организации возьмут пример с Банка России. Например, Сбер мог бы расширить и детализировать данные, доступные сейчас в СберИндексе, а Тинькофф - хотя бы добавить возможность скачивать данные, доступные в графиках Тинькофф Индекса.
Ссылка на сервис получения данных: https://www.cbr.ru/statistics/data-service/
Всего доступно 49 статистических показателей, среди которых можно найти:
- статистику по ипотечному жилищному кредитованию
- структуру денежной массы
- объемы кредитов, предоставленных субъектам МСП
- платежный баланс РФ
- процентные ставки по вкладам физлиц в рублях
- сведения по кредитам нефинансовым организациям и физлицами
- и многое другое.
Также на сайте Банка России доступна подробная инструкция по работе с сервисом (https://www.cbr.ru/statistics/data-service/user_guide/) и документация к API (https://www.cbr.ru/statistics/data-service/APIdocuemntation/).
Отличная новость, т.к. не так часто нас балуют новыми открытыми данными, особенно финансовыми. Было бы здорово, если и другие финансовые организации возьмут пример с Банка России. Например, Сбер мог бы расширить и детализировать данные, доступные сейчас в СберИндексе, а Тинькофф - хотя бы добавить возможность скачивать данные, доступные в графиках Тинькофф Индекса.
Ссылка на сервис получения данных: https://www.cbr.ru/statistics/data-service/
Один вопрос, всё же, в связи с некоторыми изменениями в российском пр-ве есть - это архивация материалов. Надо ли архивировать текущий сайт Минобороны и сайты министерств у которых сменились руководители?
Что может исчезнуть после кадровых перестановок? Какие цифровые материалы под угрозой?
#digitalpreservation #webarchives #archives
Что может исчезнуть после кадровых перестановок? Какие цифровые материалы под угрозой?
#digitalpreservation #webarchives #archives
В рубрике как это устроено у них данные проекта CMIP6 [1] (Coupled Model Intercomparison Project) по моделированию климата Земли формируются десятком научных климатических центров по всему миру. Итоговые данные публикуются в формате NetCDF и составляют более 13 миллионов датасетов размеров петабайты если не больше [2]. Эти данные весьма специфичны к этой области и малополезны за пределами климатологии и специалистов в этой области. Практически все они создаются в США и Европейских странах, но в списках партнерствующих лабораторий есть и научные центры в Китае и Индии.
В целом, данные наук о Земле (Earth Sciences) сформированы в отдельную экосистему, стандарты, форматы и каталоги данных. Точно также как и биоинформатика, генетика, астрофизика, физика частиц и многие другие научные дисциплины.
Ссылки:
[1] https://pcmdi.llnl.gov/CMIP6/
[2] https://aims2.llnl.gov/search
#opendata #datasets #data #climatology #earthsciences #cmip6
В целом, данные наук о Земле (Earth Sciences) сформированы в отдельную экосистему, стандарты, форматы и каталоги данных. Точно также как и биоинформатика, генетика, астрофизика, физика частиц и многие другие научные дисциплины.
Ссылки:
[1] https://pcmdi.llnl.gov/CMIP6/
[2] https://aims2.llnl.gov/search
#opendata #datasets #data #climatology #earthsciences #cmip6
В рубрике *как это работает у них* Национальная карта Австралии [1] позволяет отображать более 13 тысяч наборов геоданных из сотен каталогов данных и геосерверов по всей стране. А также позволяет загружать собственные наборы данных и работать с ними на карте. Поддерживает слои по стандартам OGC (WMS, WFS и др.), слои ArcGIS серверов, порталы данных Socrata, OpenDataSoft, файлы GeoJSON и ещё много чего другого.
Внутри работает на открытом исходном коде TerriaJS [2] созданном командой Data61 [3] национального агентства CSIRO и развиваемом под лицензией Apache 2.0 [4].
Кроме национального портала в Австралии и других странах на базе этого движка существует больше геопорталов, например, таких как:
- Portale del suolo в Италии [5]
- Digital Earth Africa Map [6]
- Digital Earth Australia Map [7]
и многие другие.
А также карта визуализации данных не геоплатформе открытых государственных геоданных США GeoPlatform.gov [8].
TerriaJS и построенные на основе этого фреймворка проекты можно отнести к успешным примерам создания и внедрения открытого исходного кода профинансированного государством. А также примером повторного использования кода созданного по заказу правительств одних стран, другими странами.
Ссылки:
[1] https://nationalmap.gov.au
[2] https://terria.io
[3] http://data61.csiro.au
[4] https://github.com/TerriaJS/terriajs
[5] http://www.sardegnaportalesuolo.it/webgis/
[6] https://maps.digitalearth.africa/
[7] https://maps.dea.ga.gov.au/
[8] https://terriamap.geoplatform.gov/
#opendata #geodata #spatial #dataviz #data #australia #opensource
Внутри работает на открытом исходном коде TerriaJS [2] созданном командой Data61 [3] национального агентства CSIRO и развиваемом под лицензией Apache 2.0 [4].
Кроме национального портала в Австралии и других странах на базе этого движка существует больше геопорталов, например, таких как:
- Portale del suolo в Италии [5]
- Digital Earth Africa Map [6]
- Digital Earth Australia Map [7]
и многие другие.
А также карта визуализации данных не геоплатформе открытых государственных геоданных США GeoPlatform.gov [8].
TerriaJS и построенные на основе этого фреймворка проекты можно отнести к успешным примерам создания и внедрения открытого исходного кода профинансированного государством. А также примером повторного использования кода созданного по заказу правительств одних стран, другими странами.
Ссылки:
[1] https://nationalmap.gov.au
[2] https://terria.io
[3] http://data61.csiro.au
[4] https://github.com/TerriaJS/terriajs
[5] http://www.sardegnaportalesuolo.it/webgis/
[6] https://maps.digitalearth.africa/
[7] https://maps.dea.ga.gov.au/
[8] https://terriamap.geoplatform.gov/
#opendata #geodata #spatial #dataviz #data #australia #opensource
В прошедшую субботу я потерял потратил несколько часов на просмотр выступлений зам министров Минцифры про нацпроект "Экономика данных". Хорошая новость в том что экономики там нет, плохая в том что данных тоже нет. В общем-то я лично так и не понял жанра выпихивания неподготовленных спикеров выступления зам. министров на сцене, без предварительного насильственных тренировок ораторским навыкам продумывания речей. Если это было для демонстрации открытости министерства, то лучше бы документы и данные вовремя и в полноценно публиковали. Что в итоге войдет в этот нацпроект до сих пор непонятно, но судя по интенциям впихнуть туда капиталку на сети связи, квантовые технологии и ИБ, то не пора ли переименовать нацпроект во что-то более экстравагантное? Лично у меня фантазии не хватает. Хорошо хоть Гостех не упоминали.
Параллельно с этим читаю дорожную карту комитета по Сенатского по ИИ в США. Вот это больше выглядит как нац. проект, дорожная карта там включена в отчет этого комитета. Там в дорожной карте очень много про регулирование, не только запретительное и ограничивающее, но и про участие в международных исследованиях и корректировке технологической политики.
В целом всё что я вижу по зарубежному регулированию, там это происходит созвериной серьёзностью без шоу и пиара. А сдвиг российской госполитики в пиар и шоу никакими санкциями не оправдать.
#government #russia #policy #showoff #ai #regulation
Параллельно с этим читаю дорожную карту комитета по Сенатского по ИИ в США. Вот это больше выглядит как нац. проект, дорожная карта там включена в отчет этого комитета. Там в дорожной карте очень много про регулирование, не только запретительное и ограничивающее, но и про участие в международных исследованиях и корректировке технологической политики.
В целом всё что я вижу по зарубежному регулированию, там это происходит со
#government #russia #policy #showoff #ai #regulation
В рубрике интересных наборов данных QuantGov [1] исследовательский проект по сбору законов и других регуляторных документов, превращению их в данные и последующий анализ с построением графиков и интерактивных инструментов. Основной посыл в измерении регуляторной нагрузки, охватывают, при этом, не только США и отдельные штаты, но и Канаду, Австралию, Индию, Великобританию. Всё доступно в виде датасетов в CSV, интерактивного выгрузчика документов и API.
Ключевое - это активное научное применение, эти датасеты активно цитируют исследователи и пишут про них экономические СМИ.
P.S. Префикс Quant в данном случае не имеет никакого отношения к квантовым технологиям, а часть слова Quantification, количественная оценка.
Ссылки:
[1] https://www.quantgov.org
#opendata #datasets #laws #regulations #policy
Ключевое - это активное научное применение, эти датасеты активно цитируют исследователи и пишут про них экономические СМИ.
P.S. Префикс Quant в данном случае не имеет никакого отношения к квантовым технологиям, а часть слова Quantification, количественная оценка.
Ссылки:
[1] https://www.quantgov.org
#opendata #datasets #laws #regulations #policy
QuantGov
QuantGov-Home
The home of policy analytics. We use natural language processing to measure and study regulation. Explore our tools for tracking US, Canadian, and Australian federal regulation, pull data to compare restrictions between US states, see the extent of occupational…
Для тех кто ищет данные сейчас и регулярно не могу не напомнить что в Dateno перенесен каталог порталов данных который ранее был Common Data Index и если в самом Dateno каталог ещё не проиндексирован, можно самостоятельно в него зайти и поискать на его сайте.
Список каталогов на сайте удобнее всего смотреть по странам. А недавно он дополнился 34 геопорталами на базе TerriaJS о котором я ранее писал и порталами Open Data Cube которых в реестре уже 9 штук.
Прежде чем данные проиндексированы поисковой системой они вначале попадают именно в этот каталог, большая часть порталов оттуда уже проиндексирована, а часть на подходе. В частности самое стандартизированное - это как раз Open Data Cube и другие геопорталы со STAC API, а также геопорталы вроде TerriaJS у которых недокументированное, но стандартизированное API.
#opendata #dateno #datasets #datasearch
Список каталогов на сайте удобнее всего смотреть по странам. А недавно он дополнился 34 геопорталами на базе TerriaJS о котором я ранее писал и порталами Open Data Cube которых в реестре уже 9 штук.
Прежде чем данные проиндексированы поисковой системой они вначале попадают именно в этот каталог, большая часть порталов оттуда уже проиндексирована, а часть на подходе. В частности самое стандартизированное - это как раз Open Data Cube и другие геопорталы со STAC API, а также геопорталы вроде TerriaJS у которых недокументированное, но стандартизированное API.
#opendata #dateno #datasets #datasearch
Подборка полезных ссылок про данные, технологии и не только:
- Scrapegraph-ai проект с открытым кодом по интеграции языковых моделей в задачи скрейпинга данных с сайтов. Выглядит как бэкэнд для будующих и текущих проектов по скрейпингу для не-Итшников или как полезный инструмент тем кто хочет упростить себе эту работу.
- pyspread альтернатива Excel написанная на Python. Открытый код под почти все платформы. Может показаться странным, но, как минимум, идея заслуживающая внимания.
- Substrait межязыковая сериализация операций над данными. Спецификация, будет понятна всем кто делает запросы к данным в разных СУБД и не только SQL и непонятна тем кто с таким не сталкивался. Одна из попыток создать универсальный подход/язык запросов поверх десятков диалектов SQL
- Data Council 2024 видео с выступлениями спикеров конференции Data Council 2024 в Austin. Много интересного по дата инженерии, стандартам и созданию больших датасетов. Хорошая концентрация интересных докладов
- nimble новый формат хранения больших колоночных данных. Под открытой спецификацией, сделан внутри Meta. Подробнее в выступлении рассказывают про главный акцент на скорости загрузки датасетов и о том что загрузка датасетов для ML задач занимает до 30% времени.
#opensource #data #datatools
- Scrapegraph-ai проект с открытым кодом по интеграции языковых моделей в задачи скрейпинга данных с сайтов. Выглядит как бэкэнд для будующих и текущих проектов по скрейпингу для не-Итшников или как полезный инструмент тем кто хочет упростить себе эту работу.
- pyspread альтернатива Excel написанная на Python. Открытый код под почти все платформы. Может показаться странным, но, как минимум, идея заслуживающая внимания.
- Substrait межязыковая сериализация операций над данными. Спецификация, будет понятна всем кто делает запросы к данным в разных СУБД и не только SQL и непонятна тем кто с таким не сталкивался. Одна из попыток создать универсальный подход/язык запросов поверх десятков диалектов SQL
- Data Council 2024 видео с выступлениями спикеров конференции Data Council 2024 в Austin. Много интересного по дата инженерии, стандартам и созданию больших датасетов. Хорошая концентрация интересных докладов
- nimble новый формат хранения больших колоночных данных. Под открытой спецификацией, сделан внутри Meta. Подробнее в выступлении рассказывают про главный акцент на скорости загрузки датасетов и о том что загрузка датасетов для ML задач занимает до 30% времени.
#opensource #data #datatools
GitHub
GitHub - ScrapeGraphAI/Scrapegraph-ai: Python scraper based on AI
Python scraper based on AI. Contribute to ScrapeGraphAI/Scrapegraph-ai development by creating an account on GitHub.
В блоге UBER история о том как они реализовали движок по автоматической категоризации данных DataK9 [1]. Выглядит интересно и очень похоже на то что я делал в опенсорсном продукте Metacrafter [2].
Если пересказать вкратце, то они взяли чуть более 400 тысяч датасетов для анализа, а до этого 1 тысячу датасетов для обучения и ручной разметки людьми и далее натравили созданные людьми правила на оставшиеся датасеты. Правила готовились людьми вручную, но пишут что и ИИ применяли где-то, до конца непонятно где.
Описания правил у них в YAML что тоже очень похоже на Metacrafter
В чём сходства и отличия:
1. В их правилах есть bloom filters и value range, что является хорошей идеей, надо к ней присмотреться.
2. Кроме include patterns они используют ещё и exclude patterns что тоже весьма логично и разумно.
3. Cмешивают типы данных и правила, фактически правила детекции привязывают к типу прямо в YAML файле. В Metacrafter'е это иначе. Типы данных и правила разделены.
4. Не имеют языковых особенностей при идентификации, всё про английский язык.
5. Не используют семантические типы данных. В Metacrafter они вынесены в отдельный реестр [3]
Ключевое, конечно, в среде эксплуатации. DataK9 работает в корп среде с внутренними данными заточенными под AI/ML, а Metacrafter писался под работу с общедоступными данными на разных языках.
Ссылки:
[1] https://www.uber.com/en-DE/blog/auto-categorizing-data-through-ai-ml
[2] https://github.com/apicrafter/metacrafter
[3] https://github.com/apicrafter/metacrafter-registry
#opensource #data #datatools #semanticdatatypes
Если пересказать вкратце, то они взяли чуть более 400 тысяч датасетов для анализа, а до этого 1 тысячу датасетов для обучения и ручной разметки людьми и далее натравили созданные людьми правила на оставшиеся датасеты. Правила готовились людьми вручную, но пишут что и ИИ применяли где-то, до конца непонятно где.
Описания правил у них в YAML что тоже очень похоже на Metacrafter
В чём сходства и отличия:
1. В их правилах есть bloom filters и value range, что является хорошей идеей, надо к ней присмотреться.
2. Кроме include patterns они используют ещё и exclude patterns что тоже весьма логично и разумно.
3. Cмешивают типы данных и правила, фактически правила детекции привязывают к типу прямо в YAML файле. В Metacrafter'е это иначе. Типы данных и правила разделены.
4. Не имеют языковых особенностей при идентификации, всё про английский язык.
5. Не используют семантические типы данных. В Metacrafter они вынесены в отдельный реестр [3]
Ключевое, конечно, в среде эксплуатации. DataK9 работает в корп среде с внутренними данными заточенными под AI/ML, а Metacrafter писался под работу с общедоступными данными на разных языках.
Ссылки:
[1] https://www.uber.com/en-DE/blog/auto-categorizing-data-through-ai-ml
[2] https://github.com/apicrafter/metacrafter
[3] https://github.com/apicrafter/metacrafter-registry
#opensource #data #datatools #semanticdatatypes
В продолжение про категоризацию данных я расскажу о том какое моё видение по развитию Metacrafter'а [1]. Напомню что это опенсорс утилита по идентификации семантических типов данных, категоризации и автодокументирования данных.
1. Это расширение числа семантических (смысловых) типов данных и правил их идентификации. Сейчас есть сотни типов и сотни правил, но далеко не для всех типов данных правила есть и добавлять там много что есть. В особенности когда это касается отраслей: медицина, биохимия, финансовые структуры, нефтянка, и много что другое. Специфики отраслевой немало, правила для них готовятся совсем не быстро.
2. Расширение видов правил идентфикации смысловых типов данных. В первую очередь определение уникальных полей, общих префиксов и других особенностей.
3. Возможно обновление языка управления правилами и добавление и переписать правила для добавления bloom filter, пространств значений для цифр и исключающих фильтров.
4. Перестройка работы metacrafter'а на работу с сервером по умолчанию. Сейчас для работы утилиты командной строки правила каждый раз загружаются и компилируются из файлов с правилами. А это небыстро, дольше чем сама работа категоризатора. Альтернатива в виде prefech и запуска локального сервера и работы через него.
5. Введение режима идентификации неизвестных типов данных. Это когда Metacrafter'у скармливаются датасеты для обучения и по определенным правилам он рекомендует разметить конкретные поля и конкретные типы данных. Это самая сложная и исследовательская задача. Вот её по настоящему интересно решить.
Ну и как не добавить что сейчас создаётся архив датасетов проиндексированных Dateno и по ним как раз идёт тестирование Metacrafter'а и будущая доработка.
Ссылки:
[1] https://github.com/apicrafter/metacrafter
#opensource #data #datatools #semanticdatatypes
1. Это расширение числа семантических (смысловых) типов данных и правил их идентификации. Сейчас есть сотни типов и сотни правил, но далеко не для всех типов данных правила есть и добавлять там много что есть. В особенности когда это касается отраслей: медицина, биохимия, финансовые структуры, нефтянка, и много что другое. Специфики отраслевой немало, правила для них готовятся совсем не быстро.
2. Расширение видов правил идентфикации смысловых типов данных. В первую очередь определение уникальных полей, общих префиксов и других особенностей.
3. Возможно обновление языка управления правилами и добавление и переписать правила для добавления bloom filter, пространств значений для цифр и исключающих фильтров.
4. Перестройка работы metacrafter'а на работу с сервером по умолчанию. Сейчас для работы утилиты командной строки правила каждый раз загружаются и компилируются из файлов с правилами. А это небыстро, дольше чем сама работа категоризатора. Альтернатива в виде prefech и запуска локального сервера и работы через него.
5. Введение режима идентификации неизвестных типов данных. Это когда Metacrafter'у скармливаются датасеты для обучения и по определенным правилам он рекомендует разметить конкретные поля и конкретные типы данных. Это самая сложная и исследовательская задача. Вот её по настоящему интересно решить.
Ну и как не добавить что сейчас создаётся архив датасетов проиндексированных Dateno и по ним как раз идёт тестирование Metacrafter'а и будущая доработка.
Ссылки:
[1] https://github.com/apicrafter/metacrafter
#opensource #data #datatools #semanticdatatypes