В рубрике интересных инструментов по работе с данными.
PipeRider [1] - движок с открытым кодом по автоматизации оценки качества данных. Позволяет писать простые правила оценки типов данных, количества, максимальных и минимальных значений и многое другое. Поддерживает пока только три SQL СУБД: Postgres, Sqlite и Snowflake. Делается тайваньской компанией InfuseAI [2] с прицелом на облачную монетизацию в сервисе PipeRider Cloud, который они обещают вскоре выпустить. В целом выглядит как конкурент Soda, стоит потратить время для дополнительного изучения.
ByteBase [3] система управления изменениями в СУБД и версиями с открытым кодом. Существует в виде открытого кода и облачного сервиса, в облачном сервисе предлагают поддержку с SLA. Главное что позволяет - это подходы Database-as-Code и GitOps.
Поддерживает MySQL, Postgres, Clickhouse, TiDB и Snowflake. Они уже несколько месяцев стремительно набирают звёзды на Github'е [4]. Основатели выходцы из Google, часть команды находится в Шанхае. По данным в Crunchbase привлекли инвестиций на $3M, основной инвестор китайцы в Matrix China Partners. Для компаний внутри которых базы данных имеют клиентов/потребителей такой инструмент будет полезен.
QuestDB [5] быстрая база для временных рядов с открытым кодом, сами они пишут что быстрейшая, но это ещё надо проверять/доказать. Есть те кто сомневаются что QuestDB быстрее Clickhouse [6], тем не менее конкуренция присутствует. Создается одноименной компанией получившей $14.3M инвестиций из которых $12M в прошлом году. Самая очевидная применимость в сборе логов, данных сенсоров и разного рода телеметрии.
Ссылки:
[1] https://www.piperider.io/
[2] https://www.infuseai.io/
[3] https://www.bytebase.com/
[4] https://star-history.com/#bytebase/bytebase&Date
[5] https://questdb.io/
[6] https://telegra.ph/No-QuestDB-is-not-Faster-than-ClickHouse-06-15
#opensource #dbms #dbtools #data #startups
PipeRider [1] - движок с открытым кодом по автоматизации оценки качества данных. Позволяет писать простые правила оценки типов данных, количества, максимальных и минимальных значений и многое другое. Поддерживает пока только три SQL СУБД: Postgres, Sqlite и Snowflake. Делается тайваньской компанией InfuseAI [2] с прицелом на облачную монетизацию в сервисе PipeRider Cloud, который они обещают вскоре выпустить. В целом выглядит как конкурент Soda, стоит потратить время для дополнительного изучения.
ByteBase [3] система управления изменениями в СУБД и версиями с открытым кодом. Существует в виде открытого кода и облачного сервиса, в облачном сервисе предлагают поддержку с SLA. Главное что позволяет - это подходы Database-as-Code и GitOps.
Поддерживает MySQL, Postgres, Clickhouse, TiDB и Snowflake. Они уже несколько месяцев стремительно набирают звёзды на Github'е [4]. Основатели выходцы из Google, часть команды находится в Шанхае. По данным в Crunchbase привлекли инвестиций на $3M, основной инвестор китайцы в Matrix China Partners. Для компаний внутри которых базы данных имеют клиентов/потребителей такой инструмент будет полезен.
QuestDB [5] быстрая база для временных рядов с открытым кодом, сами они пишут что быстрейшая, но это ещё надо проверять/доказать. Есть те кто сомневаются что QuestDB быстрее Clickhouse [6], тем не менее конкуренция присутствует. Создается одноименной компанией получившей $14.3M инвестиций из которых $12M в прошлом году. Самая очевидная применимость в сборе логов, данных сенсоров и разного рода телеметрии.
Ссылки:
[1] https://www.piperider.io/
[2] https://www.infuseai.io/
[3] https://www.bytebase.com/
[4] https://star-history.com/#bytebase/bytebase&Date
[5] https://questdb.io/
[6] https://telegra.ph/No-QuestDB-is-not-Faster-than-ClickHouse-06-15
#opensource #dbms #dbtools #data #startups
Многие разработчики возмущены появлением Github Copilot [1] и использованием их кода ИИ для написания нового кода. А, тем временем, Brendan Dolan-Gavitt из NYU Tandon School of Engineering создал его аналог с открытым кодом и который можно использовать локально. Встречаем FauxPilot [2] в основе которого модели Salesforce CodeGet [3] и NVIDIA Triton Inference Server [4].
Для работы требуется процессор NVIDIA с объёмом видеопамяти от 2ГБ и где-то до 32ГБ для самых больших языковых моделей, выбор из нескольких моделей предусмотрен.
Для тех кто хочет поработать продуктами по кодогенерации локально и сделать что-то своё и уникальное, это хороший пример того с чего можно начать и что доступно с открытым кодом.
Ссылки:
[1] https://yangx.top/begtin/4020
[2] https://github.com/moyix/fauxpilot
[3] https://github.com/salesforce/CodeGen
[4] https://developer.nvidia.com/nvidia-triton-inference-server
#opensource #github #copilot #datatools #programming #fauxpilot
Для работы требуется процессор NVIDIA с объёмом видеопамяти от 2ГБ и где-то до 32ГБ для самых больших языковых моделей, выбор из нескольких моделей предусмотрен.
Для тех кто хочет поработать продуктами по кодогенерации локально и сделать что-то своё и уникальное, это хороший пример того с чего можно начать и что доступно с открытым кодом.
Ссылки:
[1] https://yangx.top/begtin/4020
[2] https://github.com/moyix/fauxpilot
[3] https://github.com/salesforce/CodeGen
[4] https://developer.nvidia.com/nvidia-triton-inference-server
#opensource #github #copilot #datatools #programming #fauxpilot
Telegram
Ivan Begtin
Вокруг ИИ помощника по написанию кода Github Copilot разгораются нешуточные баталии [1], НКО Software Freedom Conservancy призывают всех разработчиков покинуть Github [2].
Причём корень проблемы в том что открытый код не делает ограничений на его использование…
Причём корень проблемы в том что открытый код не делает ограничений на его использование…
Вжух и данные, вжух и продукт на данных (с)
В качестве небольшого отступления от новостей про продукты и стартапы на данных, я сформирую мысли вокруг трендов которые я вижу. Есть некоторый, не на поверхности, но, достаточно хорошо ощутимый тренд, это запрос на автоматизацию/ИИзацию работы с данными. Причём на всех уровнях от хранения данных до их визуализации и продукт-изации.
Во многом это не только про появление no-code инструментов для конечных пользователей, но и усилением этих инструментов инструментами понимания неструктурированных пользовательских запросов.
Например, пока нет инструментов которые могли бы принимать запросы вроде: "Возьми данные оттуда и оттуда, слинкуй их и подбери наилучшую визуализацию по показателям прошлого месяца".
При этом, есть системы ответов на вопросы пользователей, есть системы со-написания исходного кода, но нет, пока нет, аналогичных инструментов для аналитиков/маркетологов/руководителей, иначе говоря конечных потребителей внутренних дата-продуктов.
И бы не сказал что это феноменально сложно, это решаемо, но как и многие продукты такого типа будет вызывать неоднозначную реакцию у тех кто в индустрии работы с данными существует уже сейчас. Подобные инструменты не могут её не менять, причём непонятно, в сторону усиления специалистов среднего уровня или наоборот в сторону снижения их числа на тех же задачах.
Сейчас работа аналитиков - это, часто, очень много ручной работы. Работа дата сайентистов тоже, включает множество экспериментов и чистки данных. В этой области частично всё сдвигается в Automated ML (AutoML), в задачах поддающихся автоматизации. А вот Automated analytics и Automated dashboard в том виде как они существуют сейчас - это лишь преднастроенные отчеты и панели в которых автоматизируют потоки данных. Реальной автоматизации с анализом источников и природы данных пока не наблюдается. Есть на это спрос уже прямо сейчас? Я склоняюсь что он появится вместе с первыми продуктами в этой области.
В итоге я вижу достаточно четкий тренд на усиление конечных пользователей без обучения их дополнительным техническим навыкам. Причём, похоже, он будет только усиливаться в ближайшие годы и туда явно продолжат развитие существующие и новые продукты.
#thoughts #data #datatools
В качестве небольшого отступления от новостей про продукты и стартапы на данных, я сформирую мысли вокруг трендов которые я вижу. Есть некоторый, не на поверхности, но, достаточно хорошо ощутимый тренд, это запрос на автоматизацию/ИИзацию работы с данными. Причём на всех уровнях от хранения данных до их визуализации и продукт-изации.
Во многом это не только про появление no-code инструментов для конечных пользователей, но и усилением этих инструментов инструментами понимания неструктурированных пользовательских запросов.
Например, пока нет инструментов которые могли бы принимать запросы вроде: "Возьми данные оттуда и оттуда, слинкуй их и подбери наилучшую визуализацию по показателям прошлого месяца".
При этом, есть системы ответов на вопросы пользователей, есть системы со-написания исходного кода, но нет, пока нет, аналогичных инструментов для аналитиков/маркетологов/руководителей, иначе говоря конечных потребителей внутренних дата-продуктов.
И бы не сказал что это феноменально сложно, это решаемо, но как и многие продукты такого типа будет вызывать неоднозначную реакцию у тех кто в индустрии работы с данными существует уже сейчас. Подобные инструменты не могут её не менять, причём непонятно, в сторону усиления специалистов среднего уровня или наоборот в сторону снижения их числа на тех же задачах.
Сейчас работа аналитиков - это, часто, очень много ручной работы. Работа дата сайентистов тоже, включает множество экспериментов и чистки данных. В этой области частично всё сдвигается в Automated ML (AutoML), в задачах поддающихся автоматизации. А вот Automated analytics и Automated dashboard в том виде как они существуют сейчас - это лишь преднастроенные отчеты и панели в которых автоматизируют потоки данных. Реальной автоматизации с анализом источников и природы данных пока не наблюдается. Есть на это спрос уже прямо сейчас? Я склоняюсь что он появится вместе с первыми продуктами в этой области.
В итоге я вижу достаточно четкий тренд на усиление конечных пользователей без обучения их дополнительным техническим навыкам. Причём, похоже, он будет только усиливаться в ближайшие годы и туда явно продолжат развитие существующие и новые продукты.
#thoughts #data #datatools
В RSpectr свежая статья про реестр аккредитованных ИТ компаниям, в том числе с моими комментариями [1].
Я ещё раз зафиксирую мою позицию что реестр ИТ компаний получающих льготы (ведёт ФНС) и реестр аккредитованных ИТ компаний (ведёт Минцифры) должны быть одним реестром с правилом двух ключей. Аккредитация должна давать ИТ льготы и подтверждение их должны давать Минцифра и ФНС.
Все остальные "сложные схемы" формирования реестра аккредитованных ИТ компаний можно придумывать сколько угодно, но эта самая простая и понятная.
Ссылки:
[1] https://rspectr.com/articles/svet-moj-reestr-skazhi
#itmarket #digital
Я ещё раз зафиксирую мою позицию что реестр ИТ компаний получающих льготы (ведёт ФНС) и реестр аккредитованных ИТ компаний (ведёт Минцифры) должны быть одним реестром с правилом двух ключей. Аккредитация должна давать ИТ льготы и подтверждение их должны давать Минцифра и ФНС.
Все остальные "сложные схемы" формирования реестра аккредитованных ИТ компаний можно придумывать сколько угодно, но эта самая простая и понятная.
Ссылки:
[1] https://rspectr.com/articles/svet-moj-reestr-skazhi
#itmarket #digital
Rspectr
Свет мой, реестр, скажи… - RSpectr
Минцифры обновило реестр IT-компаний, исключив из него более 400 организаций, для которых деятельность в цифровой сфере не является основной.
Написал сегодня очередной текст в рассылку, на сей раз чуть подробнее рассказал о том как применяется и для чего делается утилита metacrafter [1] выявляющая семантические типы данных.
Если кратко, то это:
- выявление персональных данных
- улучшение data discovery
- автоматическое документирование
Тем временем могу сказать что утилита пополнилась новыми правилами и этой работы там ещё много, а также в базовом варианте она теперь позволяет анализировать XML файлы. В базовом, потому что у ей надо передавать название тега в который вложен объект, а автоматическое определение таких тегов где-то на следующем шаге.
Ссылки:
[1] https://begtin.substack.com/p/28
#metadata #metacrafter #datatools #data #opensource
Если кратко, то это:
- выявление персональных данных
- улучшение data discovery
- автоматическое документирование
Тем временем могу сказать что утилита пополнилась новыми правилами и этой работы там ещё много, а также в базовом варианте она теперь позволяет анализировать XML файлы. В базовом, потому что у ей надо передавать название тега в который вложен объект, а автоматическое определение таких тегов где-то на следующем шаге.
Ссылки:
[1] https://begtin.substack.com/p/28
#metadata #metacrafter #datatools #data #opensource
Ivan’s Begtin Newsletter on digital, open and preserved government
#28. Data discovery, автодокументирование и выявление персональных данных
Я довольно давно не писал про инструмент metacrafter [1] который я постепенно развиваю как небольшой экспериментальный проект по идентификации семантических типов данных, но которые имеет самое что ни на есть прямое применение.
В рубрике как это работает у них, небольшой обзор проектов по работе с данными в биоинформатике. Небольшой потому что сама эта тема огромна, а публикуемые данные значительно превосходят любой портал открытых государственных данных.
Я сделаю акцент не на обработки больших наборов данных, а на проектах по повышению понимания данных и их систематизации.
Bioschemas
Многие знают про существование Schema.org как совместной инициативы поисковиков Google, Microsoft, Yahoo и Yandex для создания реестра для разметки именованных объектов. Bioschemas [1] - это расширение Schema.org объектами относящимся к химическим веществам, генам, таксонам, молекулам и другим данным важным для исследователей. Создание проекта финансируется Евросоюзом в рамках программы ELIXIR [2]. Проект идет уже более 5 лет [3] и его основная цель в том чтобы метаданные в каталогах и репозиториях данных связанных с науками о жизни были бы стандартизированы и удобны для работы.
Data Discovery Engine
Помимо структурированного описания объектов и понятий в каталогах данных важна ещё и возможность поиска по этому структурированному описанию. Data Discovery Engine [4] - это проект с руководствами по описанию метаданных и по их сбору из существующих каталогов данных таких как CD2H, N3C, Outbreak.info и NIAID Data Portal. Сейчас там агрегируются наборы данных (Datasets) и программные инструменты (Computational Tools), а в основе профили объектов определённые в Schema.org
FAIRSharing
Помимо Bioschemas в мире существуют сотни других стандартов публикации метаданных, как в науках о жизни, так и в других науках. FAIRSharing [5] - это один из крупнейших в мире каталогов таких стандартов в реестре которого собраны руководства, схемы, описания идентификаторов, рекомендации и тд. для данных публикуемых исследователями.
—
Ссылки:
[1] https://bioschemas.org
[2] https://www.elixir-europe.org/about-us/how-funded/eu-projects/excelerate
[3] https://docs.google.com/document/d/1vfRIT7Jk-RixpA7-_8vWLpXgFuYi2rjecx2wn04E2x0/edit#heading=h.7p6phpp9ttsf
[4] https://discovery.biothings.io/
[5] https://fairsharing.org
#opendata #openscience #openaccess #standards #data
Я сделаю акцент не на обработки больших наборов данных, а на проектах по повышению понимания данных и их систематизации.
Bioschemas
Многие знают про существование Schema.org как совместной инициативы поисковиков Google, Microsoft, Yahoo и Yandex для создания реестра для разметки именованных объектов. Bioschemas [1] - это расширение Schema.org объектами относящимся к химическим веществам, генам, таксонам, молекулам и другим данным важным для исследователей. Создание проекта финансируется Евросоюзом в рамках программы ELIXIR [2]. Проект идет уже более 5 лет [3] и его основная цель в том чтобы метаданные в каталогах и репозиториях данных связанных с науками о жизни были бы стандартизированы и удобны для работы.
Data Discovery Engine
Помимо структурированного описания объектов и понятий в каталогах данных важна ещё и возможность поиска по этому структурированному описанию. Data Discovery Engine [4] - это проект с руководствами по описанию метаданных и по их сбору из существующих каталогов данных таких как CD2H, N3C, Outbreak.info и NIAID Data Portal. Сейчас там агрегируются наборы данных (Datasets) и программные инструменты (Computational Tools), а в основе профили объектов определённые в Schema.org
FAIRSharing
Помимо Bioschemas в мире существуют сотни других стандартов публикации метаданных, как в науках о жизни, так и в других науках. FAIRSharing [5] - это один из крупнейших в мире каталогов таких стандартов в реестре которого собраны руководства, схемы, описания идентификаторов, рекомендации и тд. для данных публикуемых исследователями.
—
Ссылки:
[1] https://bioschemas.org
[2] https://www.elixir-europe.org/about-us/how-funded/eu-projects/excelerate
[3] https://docs.google.com/document/d/1vfRIT7Jk-RixpA7-_8vWLpXgFuYi2rjecx2wn04E2x0/edit#heading=h.7p6phpp9ttsf
[4] https://discovery.biothings.io/
[5] https://fairsharing.org
#opendata #openscience #openaccess #standards #data
bioschemas.org
Bioschemas - Bioschemas
Bioschemas relies and extends from schema.org and aims to reuse existing standards and reach consensus among a wide number of life sciences organizations and communities.
Свежий европейский отчет eGovernment Benchmark 2022 [1] о зрелости электронного правительства в Евросоюзе со сравнению EU27+ стран членов и кандидатов в ЕС.
К нему же презентация с фактами по каждой стране [2].
Акцент в отчете сделан на то что в России называют госуслугами, но включает такой блок как прозрачность действий государства при отборе услуг для цифровизации и прозрачность их создания.
Ссылки:
[1] https://ec.europa.eu/newsroom/dae/redirection/document/88517
[2] https://ec.europa.eu/newsroom/dae/redirection/document/88733
#opengovernment #opengov #eu #policy #government
К нему же презентация с фактами по каждой стране [2].
Акцент в отчете сделан на то что в России называют госуслугами, но включает такой блок как прозрачность действий государства при отборе услуг для цифровизации и прозрачность их создания.
Ссылки:
[1] https://ec.europa.eu/newsroom/dae/redirection/document/88517
[2] https://ec.europa.eu/newsroom/dae/redirection/document/88733
#opengovernment #opengov #eu #policy #government
Одна из тем на которые я регулярно пишу здесь, в телеграм канале, это регулирование цифры и, в первую очередь, данных в ЕС, США и других развитых странах. Пишу я об этом всём уже чёрт знает сколько лет, минимум лет 12, на разных площадках и читать об этом регулировании регулярно у меня уже вошло в привычку.
Но вот в свежих дискуссиях с коллегами/экспертами/лоббистами, в последние месяцы постоянно всплывает одна и та же тема что приводить в России сейчас малорезультативно приводить в пример ЕС или США. Как минимум в части GR, как максимум в части большей части публичных коммуникаций. Например, не поможет в разговоре с Роскомнадзором говорить про GDPR, а в разговоре с Минцифрой про европейские экосистемы обмена данными или американский опыт публикации данных. Это касается не только этих регуляторов, а уже практически любых.
Но, как минимум, русскоязычный мир Россией не ограничивается и нельзя сказать что в России настолько всё хорошо с работой с данными чтобы чужой опыт можно было бы не учитывать.
Поэтому я подумывал сократить число публикаций про регулирование и госполитику в своём канале, но останавливает пока то что:
a) Есть и другие постсоветские страны и русскоязычные читатели по всему миру
б) "Вся эта хрень" не навсегда и думать про то как мир устроен надо.
А что вы думаете про нерелеватность мирового опыта для GR в России? Предлагаю поговорить об этом в комментариях и сейчас я размещу опрос для тех кто готов только проголосовать.
#thoughts #gr #government #regulation
Но вот в свежих дискуссиях с коллегами/экспертами/лоббистами, в последние месяцы постоянно всплывает одна и та же тема что приводить в России сейчас малорезультативно приводить в пример ЕС или США. Как минимум в части GR, как максимум в части большей части публичных коммуникаций. Например, не поможет в разговоре с Роскомнадзором говорить про GDPR, а в разговоре с Минцифрой про европейские экосистемы обмена данными или американский опыт публикации данных. Это касается не только этих регуляторов, а уже практически любых.
Но, как минимум, русскоязычный мир Россией не ограничивается и нельзя сказать что в России настолько всё хорошо с работой с данными чтобы чужой опыт можно было бы не учитывать.
Поэтому я подумывал сократить число публикаций про регулирование и госполитику в своём канале, но останавливает пока то что:
a) Есть и другие постсоветские страны и русскоязычные читатели по всему миру
б) "Вся эта хрень" не навсегда и думать про то как мир устроен надо.
А что вы думаете про нерелеватность мирового опыта для GR в России? Предлагаю поговорить об этом в комментариях и сейчас я размещу опрос для тех кто готов только проголосовать.
#thoughts #gr #government #regulation
Актуален ли ещё в России опыт ЕС и США в части цифры или теперь всё по другому, а этот опыт идет скорее на негативную реакцию гос-ва?
Final Results
9%
Не актуален, понятно что кооперация с ЕС, США, ОЭСР и др. в цифре уже невозможна
43%
Актуален, потому что основной опыт, всё равно, в развитых странах
6%
Не актуален, потому что в России не остаётся людей и технологий на которых этот опыт реализуем
26%
Актуален, потому что без этого не достичь никакого развития в цифре в ближайшие годы
13%
Не актуален, потому что паранойя в госорганах растёт, будут подозревать в чем-то несусветном
7%
Актуален, потому что останутся всяческие международные рейтинги и Правительство продолжит на них ...
11%
Актуально, неактуально, не о том думаете
17%
Мнения не имею, ответы посмотреть хочу!
Полезные материалы по управлению метаданными и каталогами данных
Open source продукты
- Amundsen [1] создан внутри Lyft
- OpenMetadata [2] пытаются создавать стандарт
- Datahub [3] создан в LinkedIn, передан в Acryl Data
- Metacat [4] создан в Netflix
- Apache Atlas [5] передан в Apache Foundation
- Marquez [6] передан в Linux Foundation
- Whale [7] не обновлялся около года
Обзоры
- Top 7 Data Catalog Tools in 2022 [8] обзор от Hevo Data облачных, открытых и корпоративных каталогов
Видео и выступления на русском языке
- Data-docs — как найти данные о данных — Олег Харатов, Авито [9]
- Как мы строим Metadata Managemen — Юлия Кошелева и Энрика Матвейчук, Тинькофф [10]
- Под капотом каталога данных — Анастасия Ожигина, Тинькофф [11]
Видео на английском языке
- Data Catalog for data discovery and metadata management [12] от Google и про Google Data Catalog
- Amundsen: A Data Discovery Platform From Lyft | Lyft [13] видео 2019 года, про раннюю стадию создания Amunsen
Ссылки:
[1] https://www.amundsen.io/
[2] https://open-metadata.org/
[3] https://datahubproject.io/
[4] https://github.com/Netflix/metacat
[5] https://atlas.apache.org
[6] https://marquezproject.ai/
[7] https://github.com/hyperqueryhq/whale
[8] https://hevodata.com/learn/data-catalog-tools/
[9] https://www.youtube.com/watch?v=Cr1DDmhoLKI
[10] https://www.youtube.com/watch?v=3xuNp5L_ikU
[11] https://www.youtube.com/watch?v=puH3uBNoDXk
[12] https://www.youtube.com/watch?v=eUKqXZDXj78
[13] https://www.youtube.com/watch?v=EOCYw0yf63k
#datacatalogs #data #metadata #datatools
Open source продукты
- Amundsen [1] создан внутри Lyft
- OpenMetadata [2] пытаются создавать стандарт
- Datahub [3] создан в LinkedIn, передан в Acryl Data
- Metacat [4] создан в Netflix
- Apache Atlas [5] передан в Apache Foundation
- Marquez [6] передан в Linux Foundation
- Whale [7] не обновлялся около года
Обзоры
- Top 7 Data Catalog Tools in 2022 [8] обзор от Hevo Data облачных, открытых и корпоративных каталогов
Видео и выступления на русском языке
- Data-docs — как найти данные о данных — Олег Харатов, Авито [9]
- Как мы строим Metadata Managemen — Юлия Кошелева и Энрика Матвейчук, Тинькофф [10]
- Под капотом каталога данных — Анастасия Ожигина, Тинькофф [11]
Видео на английском языке
- Data Catalog for data discovery and metadata management [12] от Google и про Google Data Catalog
- Amundsen: A Data Discovery Platform From Lyft | Lyft [13] видео 2019 года, про раннюю стадию создания Amunsen
Ссылки:
[1] https://www.amundsen.io/
[2] https://open-metadata.org/
[3] https://datahubproject.io/
[4] https://github.com/Netflix/metacat
[5] https://atlas.apache.org
[6] https://marquezproject.ai/
[7] https://github.com/hyperqueryhq/whale
[8] https://hevodata.com/learn/data-catalog-tools/
[9] https://www.youtube.com/watch?v=Cr1DDmhoLKI
[10] https://www.youtube.com/watch?v=3xuNp5L_ikU
[11] https://www.youtube.com/watch?v=puH3uBNoDXk
[12] https://www.youtube.com/watch?v=eUKqXZDXj78
[13] https://www.youtube.com/watch?v=EOCYw0yf63k
#datacatalogs #data #metadata #datatools
www.amundsen.io
Amundsen, the leading open source data catalog
В Евросоюзе, очень похоже, начался сезон индексов и рейтингов и вышел рейтинг Digital Economy and Society Index (DESI) 2022 [1] о состоянии цифровой экономики и общества.
Индекс по 4-м направлениям:
- человеческий капитал
- цифровая инфраструктура
- интеграция цифровых технологий
- цифровые государственные услуги
Он почти полностью основан на статистике Евростата, данных опросов Еврокомиссии, данных по участию стран ЕС в общих проектах и данные о стартапах из Startup Genome.
Сравнение стран - это, конечно, важно, но самое интересное в таких публикациях это материалы о многочисленных страновых проектах перечисленные в документах профилей стран. Среди этих проектов немало национальных порталов открытых данных и иных проектов по обмену данными.
Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/library/digital-economy-and-society-index-desi-2022
#opendata #government #eu #opengov #digital #economy
Индекс по 4-м направлениям:
- человеческий капитал
- цифровая инфраструктура
- интеграция цифровых технологий
- цифровые государственные услуги
Он почти полностью основан на статистике Евростата, данных опросов Еврокомиссии, данных по участию стран ЕС в общих проектах и данные о стартапах из Startup Genome.
Сравнение стран - это, конечно, важно, но самое интересное в таких публикациях это материалы о многочисленных страновых проектах перечисленные в документах профилей стран. Среди этих проектов немало национальных порталов открытых данных и иных проектов по обмену данными.
Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/library/digital-economy-and-society-index-desi-2022
#opendata #government #eu #opengov #digital #economy
XML файлы бывают разными, мы практически все сталкиваемся с ними когда надо работать с данными и API по ранее разработанным стандартам или когда работа идёт с унаследованными системами.
Но, в целом, XML как семейство стандартов - это, обычно, хорошо структурированные данные. Обычное применение XML стандарта - это обмен данными, конфигурационные файлы, хранение данных и тому подобное. Но, не все знают, но XML как стандарт часто используется и как язык разметки. Например, в MS Office есть возможность сохранить документ как XML-документ Word или XML-документ Excel. Расширение у него будет XML, но содержание будет в виде специального языка разметки.
Почему я это рассказываю? Одна из причин низкой востребованности порталов открытых данных, в особенности федерального data.gov.ru - это полное отсутствие контроля качества, мониторинга качества и тд. И это касается не только частоты обновления данных, но и того что по факту публикуется. Про качество данных там я писал неоднократно, и вот дополню.
Примеры таких файлов [1] [2], а всего их более 48.
Это не так много количественно, но важнее что качественно - такие "данные" это подлог, отсутствие контроля данных и на уровне тех кто их публикует и на уровне тех кто ведёт портал.
Таких примеров много, я в последние годы перестал приводить их в пример в виду общей мёртвости федерального портала data.gov.ru, но это всё к разговору о том что одна из главных претензий к порталам открытых данных. Минэкономразвития не может справится даже с загрузкой собственных данных, публикуя пустышки вроде проектов государственных программ с пустым XML документом [3].
Поэтому я повторю свой тезис что федеральный портал открытых данных в России в текущей форме малопригоден для осмысленного использования, кроме очень редких кейсов.
Ссылки:
[1] https://data.gov.ru/opendata/0274034308-infoobrash
[2] https://data.gov.ru/opendata/0274034308-zakdohodigod
[3] https://data.gov.ru/opendata/7710349494-project71
#opendata #data #government #opengov
Но, в целом, XML как семейство стандартов - это, обычно, хорошо структурированные данные. Обычное применение XML стандарта - это обмен данными, конфигурационные файлы, хранение данных и тому подобное. Но, не все знают, но XML как стандарт часто используется и как язык разметки. Например, в MS Office есть возможность сохранить документ как XML-документ Word или XML-документ Excel. Расширение у него будет XML, но содержание будет в виде специального языка разметки.
Почему я это рассказываю? Одна из причин низкой востребованности порталов открытых данных, в особенности федерального data.gov.ru - это полное отсутствие контроля качества, мониторинга качества и тд. И это касается не только частоты обновления данных, но и того что по факту публикуется. Про качество данных там я писал неоднократно, и вот дополню.
Примеры таких файлов [1] [2], а всего их более 48.
Это не так много количественно, но важнее что качественно - такие "данные" это подлог, отсутствие контроля данных и на уровне тех кто их публикует и на уровне тех кто ведёт портал.
Таких примеров много, я в последние годы перестал приводить их в пример в виду общей мёртвости федерального портала data.gov.ru, но это всё к разговору о том что одна из главных претензий к порталам открытых данных. Минэкономразвития не может справится даже с загрузкой собственных данных, публикуя пустышки вроде проектов государственных программ с пустым XML документом [3].
Поэтому я повторю свой тезис что федеральный портал открытых данных в России в текущей форме малопригоден для осмысленного использования, кроме очень редких кейсов.
Ссылки:
[1] https://data.gov.ru/opendata/0274034308-infoobrash
[2] https://data.gov.ru/opendata/0274034308-zakdohodigod
[3] https://data.gov.ru/opendata/7710349494-project71
#opendata #data #government #opengov
Закрываю опрос и по его итогам большинство читателей, всё же, считает что зарубежный опыт развитых стран в цифре в России нужен и актуален. Пока такое настроение сохраняется продолжу писать на эту тему на регулярной основе.
Forwarded from Ivan Begtin (Ivan Begtin)
Актуален ли ещё в России опыт ЕС и США в части цифры или теперь всё по другому, а этот опыт идет скорее на негативную реакцию гос-ва?
Final Results
9%
Не актуален, понятно что кооперация с ЕС, США, ОЭСР и др. в цифре уже невозможна
43%
Актуален, потому что основной опыт, всё равно, в развитых странах
6%
Не актуален, потому что в России не остаётся людей и технологий на которых этот опыт реализуем
26%
Актуален, потому что без этого не достичь никакого развития в цифре в ближайшие годы
13%
Не актуален, потому что паранойя в госорганах растёт, будут подозревать в чем-то несусветном
7%
Актуален, потому что останутся всяческие международные рейтинги и Правительство продолжит на них ...
11%
Актуально, неактуально, не о том думаете
17%
Мнения не имею, ответы посмотреть хочу!
Две неприятные новости про Минцифры РФ.
1. Про то что эксперимент про созданию госрепозитория кода провалился отложен на неопределённый срок. [1] Странная история, могу лишь предполагать какой-то дефицит кадров в министерстве потому что это была бы нужная инициатива ещё и про открытый код, при правильной реализации. Но, похоже, ни правильной, ни неправильной реализации мы не дождёмся.
2. Минцифры предложило собирать биометрию россиян без их согласия [2], а вот это реально плохая инициатива, в чистом виде китайский путь по регулированию перс данных. Китайский путь можно описать такой короткой фразой: "мы очень-очень защищаем персональные данные которые о гражданах собирает бизнес, а вот само государство может собирать их как-угодно, где-угодно, делать с ними что угодно, а кому это не нравится, идите сами знаете куда". Это если описать это простым русским понятным языком.
Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2022/08/08/935090-gosudarstvennogo-repozitoriya-po-perenesen
[2] https://www.rbc.ru/politics/09/08/2022/62f1e7fb9a7947174c3125aa
#digital #privacy #government #regulation
1. Про то что эксперимент про созданию госрепозитория кода провалился отложен на неопределённый срок. [1] Странная история, могу лишь предполагать какой-то дефицит кадров в министерстве потому что это была бы нужная инициатива ещё и про открытый код, при правильной реализации. Но, похоже, ни правильной, ни неправильной реализации мы не дождёмся.
2. Минцифры предложило собирать биометрию россиян без их согласия [2], а вот это реально плохая инициатива, в чистом виде китайский путь по регулированию перс данных. Китайский путь можно описать такой короткой фразой: "мы очень-очень защищаем персональные данные которые о гражданах собирает бизнес, а вот само государство может собирать их как-угодно, где-угодно, делать с ними что угодно, а кому это не нравится, идите сами знаете куда". Это если описать это простым русским понятным языком.
Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2022/08/08/935090-gosudarstvennogo-repozitoriya-po-perenesen
[2] https://www.rbc.ru/politics/09/08/2022/62f1e7fb9a7947174c3125aa
#digital #privacy #government #regulation
Ведомости
Эксперимент по созданию государственного репозитория ПО перенесен на неопределенный срок
Минцифры планировало запустить проект еще с 1 мая, но не смогло согласовать позиции ведомств
Как обещал, я буду стараться чаще писать про технологические инструменты которые делаются в рамках проекта APICrafter, в том числе тот о котором я пишу часто в последнее время - metacrafter про распознавание семантических типов данных.
Инструмент уже, в принципе, в состоянии когда его надо переводить в промышленное использование, но, всегда хочется докрутить ещё чуть-чуть.
Так вот, здесь про пользу государственных порталов открытых данных вроде российского data.gov.ru, британского data.gov.uk и др. Польза эта в многообразии. Например, по data.gov.ru я обучаю распознавалку семантических типов данных.
Для тех кто интересуется как это работает, в репозитории metacrafter-datacatalogs-raw собраны метаданные с разных порталов и опубликован результат распознавания семантических типов данных по data.gov.ru. Желающие могут скачать нефильтрованный результат распознаваний в файле datagovru_semantictypes.jsonl.xz
В цифрах:
- 18+ тысяч обработанных наборов данных
- 198 660 полей полей структурированных файлах
- 66 921 полей у которых автоматически определен семантический тип (примерно 34%)
- наиболее успешно идентифицируются: уникальные идентификаторы, булевые значения, наименования, ФИО, дата и время, номер телефона, url, год и тд
- самые частые ошибки в полях когда название поля используется как булевое значение, а не как содержащие сущность. Например, если поле называется "passport", а не "hasPassport" и по факту является словарем в значениях "имеется" и "отсутствует"
- распознавание можно улучшить зная контекст, источник данных, дополнительные метаданные и тд., но это какое-то дополнительное направление исследований, скорее научное чем практическое.
В общем и целом могу сказать что такое разнообразие данных полезно для разработки алгоритмов несмотря даже на бесполезность данных для практического использования.
Но даже для такой задачи есть ключевая проблема - это качество данных. Я не просто так пишу про то что госданные, в целом, это мусор.
Вот лишь несколько характеристик именно низкого качества данных:
- CSV файлы публикуются в разных кодировках и с разными разделителями (это, отчасти, преодолимо)
- CSV файлы очень часто публикуются без заголовков, например, многие данные из ХМАО (это реальная проблема)
- многие расширения файлов не соответствуют содержанию. CSV или ZIP вместо XML, HTML вместо CSV и так далее
- многие ссылки на файлы на других сайтах давно протухли, например, ссылки на сайт fstrf.ru давно ведут на какой-то левый сайт.
- вместо настоящих XML файлов с данными публикуются файлы разметки. Я об этом писал ранее, это вообще напоминает какой-то подлог
- многие CSV файлы это кривой экспорт из Excel с многострочтными заголовками и строками ИТОГО нарушающими разбор файла
- огромное число файлов просто пустые
Делать полную оценку причин и проблем с качеством открытых гос данных долго, я пишу о том насколько они влияют на возможность их автоматизированного анализа. Собственно по причинам выше и из 26+ тысяч наборов данных удалось обработать около 18+ тысяч и среди обработанных есть ошибки связанные с неверными заголовками у CSV файлов.
При этом, не в защиту российских чиновников, а в сторону госчиновников в принципе могу сказать что мало где в мире над качеством открытых данных реально работают. Я недавно общался с командой одного из крупных продуктов по публикации открытых данных и они говорят что чиновники по всему миру просят их, скорее, добавить возможность публикации PDF'ов и других плохоструктурированных данных, чем мониторинг качества данных.
Но всё постепенно меняется и я про качество данных расскажу ещё не раз.
#opendata #datasets #metadata #metacrafter #apicrafter
Инструмент уже, в принципе, в состоянии когда его надо переводить в промышленное использование, но, всегда хочется докрутить ещё чуть-чуть.
Так вот, здесь про пользу государственных порталов открытых данных вроде российского data.gov.ru, британского data.gov.uk и др. Польза эта в многообразии. Например, по data.gov.ru я обучаю распознавалку семантических типов данных.
Для тех кто интересуется как это работает, в репозитории metacrafter-datacatalogs-raw собраны метаданные с разных порталов и опубликован результат распознавания семантических типов данных по data.gov.ru. Желающие могут скачать нефильтрованный результат распознаваний в файле datagovru_semantictypes.jsonl.xz
В цифрах:
- 18+ тысяч обработанных наборов данных
- 198 660 полей полей структурированных файлах
- 66 921 полей у которых автоматически определен семантический тип (примерно 34%)
- наиболее успешно идентифицируются: уникальные идентификаторы, булевые значения, наименования, ФИО, дата и время, номер телефона, url, год и тд
- самые частые ошибки в полях когда название поля используется как булевое значение, а не как содержащие сущность. Например, если поле называется "passport", а не "hasPassport" и по факту является словарем в значениях "имеется" и "отсутствует"
- распознавание можно улучшить зная контекст, источник данных, дополнительные метаданные и тд., но это какое-то дополнительное направление исследований, скорее научное чем практическое.
В общем и целом могу сказать что такое разнообразие данных полезно для разработки алгоритмов несмотря даже на бесполезность данных для практического использования.
Но даже для такой задачи есть ключевая проблема - это качество данных. Я не просто так пишу про то что госданные, в целом, это мусор.
Вот лишь несколько характеристик именно низкого качества данных:
- CSV файлы публикуются в разных кодировках и с разными разделителями (это, отчасти, преодолимо)
- CSV файлы очень часто публикуются без заголовков, например, многие данные из ХМАО (это реальная проблема)
- многие расширения файлов не соответствуют содержанию. CSV или ZIP вместо XML, HTML вместо CSV и так далее
- многие ссылки на файлы на других сайтах давно протухли, например, ссылки на сайт fstrf.ru давно ведут на какой-то левый сайт.
- вместо настоящих XML файлов с данными публикуются файлы разметки. Я об этом писал ранее, это вообще напоминает какой-то подлог
- многие CSV файлы это кривой экспорт из Excel с многострочтными заголовками и строками ИТОГО нарушающими разбор файла
- огромное число файлов просто пустые
Делать полную оценку причин и проблем с качеством открытых гос данных долго, я пишу о том насколько они влияют на возможность их автоматизированного анализа. Собственно по причинам выше и из 26+ тысяч наборов данных удалось обработать около 18+ тысяч и среди обработанных есть ошибки связанные с неверными заголовками у CSV файлов.
При этом, не в защиту российских чиновников, а в сторону госчиновников в принципе могу сказать что мало где в мире над качеством открытых данных реально работают. Я недавно общался с командой одного из крупных продуктов по публикации открытых данных и они говорят что чиновники по всему миру просят их, скорее, добавить возможность публикации PDF'ов и других плохоструктурированных данных, чем мониторинг качества данных.
Но всё постепенно меняется и я про качество данных расскажу ещё не раз.
#opendata #datasets #metadata #metacrafter #apicrafter
Google решили пристыдить Apple создав специальный сайт Get the message [1] для кампании по внедрению протокола/стандарта RCS [2] для передачи текстовых сообщений.
RCS - это, действительно, стандарт и, действительно, Apple его не поддерживает, только тут важно помнить что RCS в отличие от iMessage не поддерживает опции end-to-end шифрования (шифрования точка-точка) [3] и подвержено "законному перехвату". В Google, активно промоутирующих RCS, не могут этого не знать. Поэтому открытые стандарты - это хорошо, но открытые небезопасные стандарты по умолчанию - это ничего хорошего.
Впрочем и закрытость экосистемы Apple - это тоже ничего хорошего ни для кого кроме самой компании, но как-то не хочется выбирать между проприетарной безопасностью и непропроприетарной госслежкой.
Ссылки:
[1] https://www.android.com/get-the-message/
[2] https://www.gsma.com/futurenetworks/rcs/
[3] https://indianexpress.com/article/technology/social/google-new-chat-service-wont-be-secure-like-imessage-and-whatsapp-amnesty-international-5147050/
#standards #google #apple #messaging #rcs #privacy
RCS - это, действительно, стандарт и, действительно, Apple его не поддерживает, только тут важно помнить что RCS в отличие от iMessage не поддерживает опции end-to-end шифрования (шифрования точка-точка) [3] и подвержено "законному перехвату". В Google, активно промоутирующих RCS, не могут этого не знать. Поэтому открытые стандарты - это хорошо, но открытые небезопасные стандарты по умолчанию - это ничего хорошего.
Впрочем и закрытость экосистемы Apple - это тоже ничего хорошего ни для кого кроме самой компании, но как-то не хочется выбирать между проприетарной безопасностью и непропроприетарной госслежкой.
Ссылки:
[1] https://www.android.com/get-the-message/
[2] https://www.gsma.com/futurenetworks/rcs/
[3] https://indianexpress.com/article/technology/social/google-new-chat-service-wont-be-secure-like-imessage-and-whatsapp-amnesty-international-5147050/
#standards #google #apple #messaging #rcs #privacy
Android
Enable RCS Chats on Android & iPhone: Get The Message
Enjoy clearer pictures, better group chats, and seamless communication between Android & iPhone with RCS. Learn to enable RCS messaging on your device.
Интересная статья венских исследователей о том что можно снизить рассеивание сигнала WiFi с помощью специального "антибликового" покрытия на стенах. Об этом в статье в Nature [1] и в более понятном изложении в NewsWeek [2]․
Идея такая что если перед железобетонной стеной создать поверхность аналогичную антибликовому покрытию на очках, только применительно к радиоволнам в определенном диапазоне, то сигнал не рассеивается, а, наоборот, значительно лучше передается далее.
В статье акцент на технологиях 6G и того что такие разработки будут полезны, а я вот не могу не смотреть на это с других точек зрения.
Во первых интересно как будут меняться строительные нормы и практическое применение. Если для бизнес центров применение будет довольно очевидным, то в жилых домах наличие такого покрытия на стенах и потолках позволит на последней миле использовать не роутер-в-каждой-квартире, а, условно, один роутер на 3 этажа. Возможно ли такое? Практично ли такое?
Во вторых увеличение дальности передачи сигнала - это, ведь, ещё и увеличение дальности приёма сигнала. Увеличит ли это точность геопозиционирования с помощью Wifi? Создаст ли это возможность отслеживать перемещение конкретного устройства в закрытых помещениях на большем расстоянии?
Ссылки:
[1] https://www.nature.com/articles/s41586-022-04843-6.epdf?sharing_token=IZPhXGh_UB8vpyGhMtbWFNRgN0jAjWel9jnR3ZoTv0OJKS2U2m5YIN0ttreuTZyoFceV-NgY6T0XAsRIt97bgyhYGbkxzf4IbIhkuCeqiTI4jWocZlHGQqCpzHYMakiv7f_xbv1IsgN42Ol2Szv9d2RyISqm5pBgA1pdoqH4kIgCZTP-bL6x5tDLwNmJDMqURyYJDSAZuWRxAm-xWlG0QN6jWlN12Ikp-cntE2eFW24%3D&tracking_referrer=www.newsweek.com
[2] https://www.newsweek.com/new-wifi-reflection-tech-could-send-signal-through-impenetrable-walls-1732088
#wifi #privacy
Идея такая что если перед железобетонной стеной создать поверхность аналогичную антибликовому покрытию на очках, только применительно к радиоволнам в определенном диапазоне, то сигнал не рассеивается, а, наоборот, значительно лучше передается далее.
В статье акцент на технологиях 6G и того что такие разработки будут полезны, а я вот не могу не смотреть на это с других точек зрения.
Во первых интересно как будут меняться строительные нормы и практическое применение. Если для бизнес центров применение будет довольно очевидным, то в жилых домах наличие такого покрытия на стенах и потолках позволит на последней миле использовать не роутер-в-каждой-квартире, а, условно, один роутер на 3 этажа. Возможно ли такое? Практично ли такое?
Во вторых увеличение дальности передачи сигнала - это, ведь, ещё и увеличение дальности приёма сигнала. Увеличит ли это точность геопозиционирования с помощью Wifi? Создаст ли это возможность отслеживать перемещение конкретного устройства в закрытых помещениях на большем расстоянии?
Ссылки:
[1] https://www.nature.com/articles/s41586-022-04843-6.epdf?sharing_token=IZPhXGh_UB8vpyGhMtbWFNRgN0jAjWel9jnR3ZoTv0OJKS2U2m5YIN0ttreuTZyoFceV-NgY6T0XAsRIt97bgyhYGbkxzf4IbIhkuCeqiTI4jWocZlHGQqCpzHYMakiv7f_xbv1IsgN42Ol2Szv9d2RyISqm5pBgA1pdoqH4kIgCZTP-bL6x5tDLwNmJDMqURyYJDSAZuWRxAm-xWlG0QN6jWlN12Ikp-cntE2eFW24%3D&tracking_referrer=www.newsweek.com
[2] https://www.newsweek.com/new-wifi-reflection-tech-could-send-signal-through-impenetrable-walls-1732088
#wifi #privacy
Nature
Anti-reflection structure for perfect transmission through complex media
Nature - An anti-reflection structure is used to eliminate all back scattering of light passing through a diffusive medium.
В рубрике как это устроено у них B2Find EUDAT [1] поисковик по научным данным в европейских репозиториях данных. Охватывает более 1 миллиона наборов данных, позволяет фильтровать по:
- языку
- временному промежутку
- формату
- организации
- году публикации
- ключевым словам
- научной дисциплине
и, в общей сложности, более чем 20 критериям.
Работает на базе движка с открытым кодом CKAN и использует его агрегационные механизмы.
Крупнейшие индексируемые репозитории:
- Nordic Archaeology [2]
- PANGAEA [3]
- DANS-EASY [4]
Всего репозиториев 36 на сегодняшний день.
Для агрегации используются стандарты метаданных:
- Datacite
- DublinCore
- OpenAire
- ISO 10115/19139 (INSPIRE)
- DDI 2.5
и собственная схема EUDAT Core Metadata Schema.
По формату проект нацелен на повышение находимости данных (data discovery) для научных целей.
По масштабу сравнимо с DataCite - поиск по 35 миллионам проиндексированных DOI для наборов данных и 17 миллионам наборов исследовательских данных в OpenAIRE.
Пока непонятно продолжится ли этот проект или все активности перешли/перейдут в OpenAIRE, но B2Find остаётся как пример большого поисковика по научным данным.
Ссылки:
[1] http://b2find.eudat.eu/
[2] http://b2find.eudat.eu/organization/nordicar
[3] http://b2find.eudat.eu/organization/pangaea
[4] http://b2find.eudat.eu/organization/danseasy
#opendata #researchdata #openaccess #datasets #search
- языку
- временному промежутку
- формату
- организации
- году публикации
- ключевым словам
- научной дисциплине
и, в общей сложности, более чем 20 критериям.
Работает на базе движка с открытым кодом CKAN и использует его агрегационные механизмы.
Крупнейшие индексируемые репозитории:
- Nordic Archaeology [2]
- PANGAEA [3]
- DANS-EASY [4]
Всего репозиториев 36 на сегодняшний день.
Для агрегации используются стандарты метаданных:
- Datacite
- DublinCore
- OpenAire
- ISO 10115/19139 (INSPIRE)
- DDI 2.5
и собственная схема EUDAT Core Metadata Schema.
По формату проект нацелен на повышение находимости данных (data discovery) для научных целей.
По масштабу сравнимо с DataCite - поиск по 35 миллионам проиндексированных DOI для наборов данных и 17 миллионам наборов исследовательских данных в OpenAIRE.
Пока непонятно продолжится ли этот проект или все активности перешли/перейдут в OpenAIRE, но B2Find остаётся как пример большого поисковика по научным данным.
Ссылки:
[1] http://b2find.eudat.eu/
[2] http://b2find.eudat.eu/organization/nordicar
[3] http://b2find.eudat.eu/organization/pangaea
[4] http://b2find.eudat.eu/organization/danseasy
#opendata #researchdata #openaccess #datasets #search
В рубрике интересных проектов на данных, проекты в области цифровых гуманитарных наук.
OmiaViae [1] планировщик пути по дорогам Римской Империи. Можно задать город выхода и город куда ты направляешься и сервис построит дорогу. Основан он на данных из Tabula Peutingeriana копии карты публичных римских дорог. Ей посвящён отдельный сайт и собраны данные [2]․
В основе этого же проекта ещё один проект по истории античности Vici [3] созданный в виде пополняемой семантической вики с картой Европы и не только с местами связанными с античными событиями. Проект претендует на то чтобы быть Wikidata для античности, ну или интегрироваться в Wikidata в будущем.
А в основе их всех проект Pleiades [4], большая открытая база данных созданная в Ancient World Mapping Center and Institute for the Study of the Ancient World. В ней опубликованы данные о 39,503 местах, 35,825 именах, 42,338 местонахождениях. Всё это доступно под свободной лицензией CC0 и в виде JSON, CSV, RDF и KML форматов данных.
Всё это примеры того что историки могут создавать на основе накопленных открытых данных. Есть много других похожих проектов и многие ещё ожидают своих создателей.
Ссылки:
[1] https://omnesviae.org
[2] https://www.tabula-peutingeriana.de/
[3] https://vici.org
[4] https://pleiades.stoa.org
#opendata #digitalhumanities #datasets
OmiaViae [1] планировщик пути по дорогам Римской Империи. Можно задать город выхода и город куда ты направляешься и сервис построит дорогу. Основан он на данных из Tabula Peutingeriana копии карты публичных римских дорог. Ей посвящён отдельный сайт и собраны данные [2]․
В основе этого же проекта ещё один проект по истории античности Vici [3] созданный в виде пополняемой семантической вики с картой Европы и не только с местами связанными с античными событиями. Проект претендует на то чтобы быть Wikidata для античности, ну или интегрироваться в Wikidata в будущем.
А в основе их всех проект Pleiades [4], большая открытая база данных созданная в Ancient World Mapping Center and Institute for the Study of the Ancient World. В ней опубликованы данные о 39,503 местах, 35,825 именах, 42,338 местонахождениях. Всё это доступно под свободной лицензией CC0 и в виде JSON, CSV, RDF и KML форматов данных.
Всё это примеры того что историки могут создавать на основе накопленных открытых данных. Есть много других похожих проектов и многие ещё ожидают своих создателей.
Ссылки:
[1] https://omnesviae.org
[2] https://www.tabula-peutingeriana.de/
[3] https://vici.org
[4] https://pleiades.stoa.org
#opendata #digitalhumanities #datasets