Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике интересных инструментов по работе с данными.

PipeRider [1] - движок с открытым кодом по автоматизации оценки качества данных. Позволяет писать простые правила оценки типов данных, количества, максимальных и минимальных значений и многое другое. Поддерживает пока только три SQL СУБД: Postgres, Sqlite и Snowflake. Делается тайваньской компанией InfuseAI [2] с прицелом на облачную монетизацию в сервисе PipeRider Cloud, который они обещают вскоре выпустить. В целом выглядит как конкурент Soda, стоит потратить время для дополнительного изучения.

ByteBase [3] система управления изменениями в СУБД и версиями с открытым кодом. Существует в виде открытого кода и облачного сервиса, в облачном сервисе предлагают поддержку с SLA. Главное что позволяет - это подходы Database-as-Code и GitOps.
Поддерживает MySQL, Postgres, Clickhouse, TiDB и Snowflake. Они уже несколько месяцев стремительно набирают звёзды на Github'е [4]. Основатели выходцы из Google, часть команды находится в Шанхае. По данным в Crunchbase привлекли инвестиций на $3M, основной инвестор китайцы в Matrix China Partners. Для компаний внутри которых базы данных имеют клиентов/потребителей такой инструмент будет полезен.

QuestDB [5] быстрая база для временных рядов с открытым кодом, сами они пишут что быстрейшая, но это ещё надо проверять/доказать. Есть те кто сомневаются что QuestDB быстрее Clickhouse [6], тем не менее конкуренция присутствует. Создается одноименной компанией получившей $14.3M инвестиций из которых $12M в прошлом году. Самая очевидная применимость в сборе логов, данных сенсоров и разного рода телеметрии.

Ссылки:
[1] https://www.piperider.io/
[2] https://www.infuseai.io/
[3] https://www.bytebase.com/
[4] https://star-history.com/#bytebase/bytebase&Date
[5] https://questdb.io/
[6] https://telegra.ph/No-QuestDB-is-not-Faster-than-ClickHouse-06-15

#opensource #dbms #dbtools #data #startups
Многие разработчики возмущены появлением Github Copilot [1] и использованием их кода ИИ для написания нового кода. А, тем временем, Brendan Dolan-Gavitt из NYU Tandon School of Engineering создал его аналог с открытым кодом и который можно использовать локально. Встречаем FauxPilot [2] в основе которого модели Salesforce CodeGet [3] и NVIDIA Triton Inference Server [4].

Для работы требуется процессор NVIDIA с объёмом видеопамяти от 2ГБ и где-то до 32ГБ для самых больших языковых моделей, выбор из нескольких моделей предусмотрен.

Для тех кто хочет поработать продуктами по кодогенерации локально и сделать что-то своё и уникальное, это хороший пример того с чего можно начать и что доступно с открытым кодом.

Ссылки:
[1] https://yangx.top/begtin/4020
[2] https://github.com/moyix/fauxpilot
[3] https://github.com/salesforce/CodeGen
[4] https://developer.nvidia.com/nvidia-triton-inference-server

#opensource #github #copilot #datatools #programming #fauxpilot
Вжух и данные, вжух и продукт на данных (с)

В качестве небольшого отступления от новостей про продукты и стартапы на данных, я сформирую мысли вокруг трендов которые я вижу. Есть некоторый, не на поверхности, но, достаточно хорошо ощутимый тренд, это запрос на автоматизацию/ИИзацию работы с данными. Причём на всех уровнях от хранения данных до их визуализации и продукт-изации.

Во многом это не только про появление no-code инструментов для конечных пользователей, но и усилением этих инструментов инструментами понимания неструктурированных пользовательских запросов.

Например, пока нет инструментов которые могли бы принимать запросы вроде: "Возьми данные оттуда и оттуда, слинкуй их и подбери наилучшую визуализацию по показателям прошлого месяца".

При этом, есть системы ответов на вопросы пользователей, есть системы со-написания исходного кода, но нет, пока нет, аналогичных инструментов для аналитиков/маркетологов/руководителей, иначе говоря конечных потребителей внутренних дата-продуктов.

И бы не сказал что это феноменально сложно, это решаемо, но как и многие продукты такого типа будет вызывать неоднозначную реакцию у тех кто в индустрии работы с данными существует уже сейчас. Подобные инструменты не могут её не менять, причём непонятно, в сторону усиления специалистов среднего уровня или наоборот в сторону снижения их числа на тех же задачах.

Сейчас работа аналитиков - это, часто, очень много ручной работы. Работа дата сайентистов тоже, включает множество экспериментов и чистки данных. В этой области частично всё сдвигается в Automated ML (AutoML), в задачах поддающихся автоматизации. А вот Automated analytics и Automated dashboard в том виде как они существуют сейчас - это лишь преднастроенные отчеты и панели в которых автоматизируют потоки данных. Реальной автоматизации с анализом источников и природы данных пока не наблюдается. Есть на это спрос уже прямо сейчас? Я склоняюсь что он появится вместе с первыми продуктами в этой области.

В итоге я вижу достаточно четкий тренд на усиление конечных пользователей без обучения их дополнительным техническим навыкам. Причём, похоже, он будет только усиливаться в ближайшие годы и туда явно продолжат развитие существующие и новые продукты.

#thoughts #data #datatools
В RSpectr свежая статья про реестр аккредитованных ИТ компаниям, в том числе с моими комментариями [1].

Я ещё раз зафиксирую мою позицию что реестр ИТ компаний получающих льготы (ведёт ФНС) и реестр аккредитованных ИТ компаний (ведёт Минцифры) должны быть одним реестром с правилом двух ключей. Аккредитация должна давать ИТ льготы и подтверждение их должны давать Минцифра и ФНС.

Все остальные "сложные схемы" формирования реестра аккредитованных ИТ компаний можно придумывать сколько угодно, но эта самая простая и понятная.

Ссылки:
[1] https://rspectr.com/articles/svet-moj-reestr-skazhi

#itmarket #digital
Написал сегодня очередной текст в рассылку, на сей раз чуть подробнее рассказал о том как применяется и для чего делается утилита metacrafter [1] выявляющая семантические типы данных.

Если кратко, то это:
- выявление персональных данных
- улучшение data discovery
- автоматическое документирование

Тем временем могу сказать что утилита пополнилась новыми правилами и этой работы там ещё много, а также в базовом варианте она теперь позволяет анализировать XML файлы. В базовом, потому что у ей надо передавать название тега в который вложен объект, а автоматическое определение таких тегов где-то на следующем шаге.

Ссылки:
[1] https://begtin.substack.com/p/28

#metadata #metacrafter #datatools #data #opensource
В рубрике как это работает у них, небольшой обзор проектов по работе с данными в биоинформатике. Небольшой потому что сама эта тема огромна, а публикуемые данные значительно превосходят любой портал открытых государственных данных.

Я сделаю акцент не на обработки больших наборов данных, а на проектах по повышению понимания данных и их систематизации.

Bioschemas

Многие знают про существование Schema.org как совместной инициативы поисковиков Google, Microsoft, Yahoo и Yandex для создания реестра для разметки именованных объектов. Bioschemas [1] - это расширение Schema.org объектами относящимся к химическим веществам, генам, таксонам, молекулам и другим данным важным для исследователей. Создание проекта финансируется Евросоюзом в рамках программы ELIXIR [2]. Проект идет уже более 5 лет [3] и его основная цель в том чтобы метаданные в каталогах и репозиториях данных связанных с науками о жизни были бы стандартизированы и удобны для работы.

Data Discovery Engine

Помимо структурированного описания объектов и понятий в каталогах данных важна ещё и возможность поиска по этому структурированному описанию. Data Discovery Engine [4] - это проект с руководствами по описанию метаданных и по их сбору из существующих каталогов данных таких как CD2H, N3C, Outbreak.info и NIAID Data Portal. Сейчас там агрегируются наборы данных (Datasets) и программные инструменты (Computational Tools), а в основе профили объектов определённые в Schema.org

FAIRSharing

Помимо Bioschemas в мире существуют сотни других стандартов публикации метаданных, как в науках о жизни, так и в других науках. FAIRSharing [5] - это один из крупнейших в мире каталогов таких стандартов в реестре которого собраны руководства, схемы, описания идентификаторов, рекомендации и тд. для данных публикуемых исследователями.


Ссылки:
[1] https://bioschemas.org
[2] https://www.elixir-europe.org/about-us/how-funded/eu-projects/excelerate
[3] https://docs.google.com/document/d/1vfRIT7Jk-RixpA7-_8vWLpXgFuYi2rjecx2wn04E2x0/edit#heading=h.7p6phpp9ttsf
[4] https://discovery.biothings.io/
[5] https://fairsharing.org

#opendata #openscience #openaccess #standards #data
Свежий европейский отчет eGovernment Benchmark 2022 [1] о зрелости электронного правительства в Евросоюзе со сравнению EU27+ стран членов и кандидатов в ЕС.

К нему же презентация с фактами по каждой стране [2].

Акцент в отчете сделан на то что в России называют госуслугами, но включает такой блок как прозрачность действий государства при отборе услуг для цифровизации и прозрачность их создания.

Ссылки:
[1] https://ec.europa.eu/newsroom/dae/redirection/document/88517
[2] https://ec.europa.eu/newsroom/dae/redirection/document/88733

#opengovernment #opengov #eu #policy #government
Одна из тем на которые я регулярно пишу здесь, в телеграм канале, это регулирование цифры и, в первую очередь, данных в ЕС, США и других развитых странах. Пишу я об этом всём уже чёрт знает сколько лет, минимум лет 12, на разных площадках и читать об этом регулировании регулярно у меня уже вошло в привычку.

Но вот в свежих дискуссиях с коллегами/экспертами/лоббистами, в последние месяцы постоянно всплывает одна и та же тема что приводить в России сейчас малорезультативно приводить в пример ЕС или США. Как минимум в части GR, как максимум в части большей части публичных коммуникаций. Например, не поможет в разговоре с Роскомнадзором говорить про GDPR, а в разговоре с Минцифрой про европейские экосистемы обмена данными или американский опыт публикации данных. Это касается не только этих регуляторов, а уже практически любых.

Но, как минимум, русскоязычный мир Россией не ограничивается и нельзя сказать что в России настолько всё хорошо с работой с данными чтобы чужой опыт можно было бы не учитывать.

Поэтому я подумывал сократить число публикаций про регулирование и госполитику в своём канале, но останавливает пока то что:
a) Есть и другие постсоветские страны и русскоязычные читатели по всему миру
б) "Вся эта хрень" не навсегда и думать про то как мир устроен надо.

А что вы думаете про нерелеватность мирового опыта для GR в России? Предлагаю поговорить об этом в комментариях и сейчас я размещу опрос для тех кто готов только проголосовать.

#thoughts #gr #government #regulation
Полезные материалы по управлению метаданными и каталогами данных

Open source продукты
-
Amundsen [1] создан внутри Lyft
- OpenMetadata [2] пытаются создавать стандарт
- Datahub [3] создан в LinkedIn, передан в Acryl Data
- Metacat [4] создан в Netflix
- Apache Atlas [5] передан в Apache Foundation
- Marquez [6] передан в Linux Foundation
- Whale [7] не обновлялся около года

Обзоры
- Top 7 Data Catalog Tools in 2022 [8] обзор от Hevo Data облачных, открытых и корпоративных каталогов

Видео и выступления на русском языке
- Data-docs — как найти данные о данных — Олег Харатов, Авито [9]
- Как мы строим Metadata Managemen — Юлия Кошелева и Энрика Матвейчук, Тинькофф [10]
- Под капотом каталога данных — Анастасия Ожигина, Тинькофф [11]

Видео на английском языке
- Data Catalog for data discovery and metadata management [12] от Google и про Google Data Catalog
- Amundsen: A Data Discovery Platform From Lyft | Lyft [13] видео 2019 года, про раннюю стадию создания Amunsen

Ссылки:
[1] https://www.amundsen.io/
[2] https://open-metadata.org/
[3] https://datahubproject.io/
[4] https://github.com/Netflix/metacat
[5] https://atlas.apache.org
[6] https://marquezproject.ai/
[7] https://github.com/hyperqueryhq/whale
[8] https://hevodata.com/learn/data-catalog-tools/
[9] https://www.youtube.com/watch?v=Cr1DDmhoLKI
[10] https://www.youtube.com/watch?v=3xuNp5L_ikU
[11] https://www.youtube.com/watch?v=puH3uBNoDXk
[12] https://www.youtube.com/watch?v=eUKqXZDXj78
[13] https://www.youtube.com/watch?v=EOCYw0yf63k

#datacatalogs #data #metadata #datatools
В Евросоюзе, очень похоже, начался сезон индексов и рейтингов и вышел рейтинг Digital Economy and Society Index (DESI) 2022 [1] о состоянии цифровой экономики и общества.

Индекс по 4-м направлениям:
- человеческий капитал
- цифровая инфраструктура
- интеграция цифровых технологий
- цифровые государственные услуги

Он почти полностью основан на статистике Евростата, данных опросов Еврокомиссии, данных по участию стран ЕС в общих проектах и данные о стартапах из Startup Genome.

Сравнение стран - это, конечно, важно, но самое интересное в таких публикациях это материалы о многочисленных страновых проектах перечисленные в документах профилей стран. Среди этих проектов немало национальных порталов открытых данных и иных проектов по обмену данными.

Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/library/digital-economy-and-society-index-desi-2022

#opendata #government #eu #opengov #digital #economy
XML файлы бывают разными, мы практически все сталкиваемся с ними когда надо работать с данными и API по ранее разработанным стандартам или когда работа идёт с унаследованными системами.

Но, в целом, XML как семейство стандартов - это, обычно, хорошо структурированные данные. Обычное применение XML стандарта - это обмен данными, конфигурационные файлы, хранение данных и тому подобное. Но, не все знают, но XML как стандарт часто используется и как язык разметки. Например, в MS Office есть возможность сохранить документ как XML-документ Word или XML-документ Excel. Расширение у него будет XML, но содержание будет в виде специального языка разметки.

Почему я это рассказываю? Одна из причин низкой востребованности порталов открытых данных, в особенности федерального data.gov.ru - это полное отсутствие контроля качества, мониторинга качества и тд. И это касается не только частоты обновления данных, но и того что по факту публикуется. Про качество данных там я писал неоднократно, и вот дополню.

Примеры таких файлов [1] [2], а всего их более 48.

Это не так много количественно, но важнее что качественно - такие "данные" это подлог, отсутствие контроля данных и на уровне тех кто их публикует и на уровне тех кто ведёт портал.

Таких примеров много, я в последние годы перестал приводить их в пример в виду общей мёртвости федерального портала data.gov.ru, но это всё к разговору о том что одна из главных претензий к порталам открытых данных. Минэкономразвития не может справится даже с загрузкой собственных данных, публикуя пустышки вроде проектов государственных программ с пустым XML документом [3].

Поэтому я повторю свой тезис что федеральный портал открытых данных в России в текущей форме малопригоден для осмысленного использования, кроме очень редких кейсов.

Ссылки:
[1] https://data.gov.ru/opendata/0274034308-infoobrash
[2] https://data.gov.ru/opendata/0274034308-zakdohodigod
[3] https://data.gov.ru/opendata/7710349494-project71

#opendata #data #government #opengov
Закрываю опрос и по его итогам большинство читателей, всё же, считает что зарубежный опыт развитых стран в цифре в России нужен и актуален. Пока такое настроение сохраняется продолжу писать на эту тему на регулярной основе.
Две неприятные новости про Минцифры РФ.

1. Про то что эксперимент про созданию госрепозитория кода провалился отложен на неопределённый срок. [1] Странная история, могу лишь предполагать какой-то дефицит кадров в министерстве потому что это была бы нужная инициатива ещё и про открытый код, при правильной реализации. Но, похоже, ни правильной, ни неправильной реализации мы не дождёмся.
2. Минцифры предложило собирать биометрию россиян без их согласия [2], а вот это реально плохая инициатива, в чистом виде китайский путь по регулированию перс данных. Китайский путь можно описать такой короткой фразой: "мы очень-очень защищаем персональные данные которые о гражданах собирает бизнес, а вот само государство может собирать их как-угодно, где-угодно, делать с ними что угодно, а кому это не нравится, идите сами знаете куда". Это если описать это простым русским понятным языком.

Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2022/08/08/935090-gosudarstvennogo-repozitoriya-po-perenesen
[2] https://www.rbc.ru/politics/09/08/2022/62f1e7fb9a7947174c3125aa

#digital #privacy #government #regulation
Как обещал, я буду стараться чаще писать про технологические инструменты которые делаются в рамках проекта APICrafter, в том числе тот о котором я пишу часто в последнее время - metacrafter про распознавание семантических типов данных.

Инструмент уже, в принципе, в состоянии когда его надо переводить в промышленное использование, но, всегда хочется докрутить ещё чуть-чуть.

Так вот, здесь про пользу государственных порталов открытых данных вроде российского data.gov.ru, британского data.gov.uk и др. Польза эта в многообразии. Например, по data.gov.ru я обучаю распознавалку семантических типов данных.

Для тех кто интересуется как это работает, в репозитории metacrafter-datacatalogs-raw собраны метаданные с разных порталов и опубликован результат распознавания семантических типов данных по data.gov.ru. Желающие могут скачать нефильтрованный результат распознаваний в файле datagovru_semantictypes.jsonl.xz

В цифрах:
- 18+ тысяч обработанных наборов данных
- 198 660 полей полей структурированных файлах
- 66 921 полей у которых автоматически определен семантический тип (примерно 34%)
- наиболее успешно идентифицируются: уникальные идентификаторы, булевые значения, наименования, ФИО, дата и время, номер телефона, url, год и тд
- самые частые ошибки в полях когда название поля используется как булевое значение, а не как содержащие сущность. Например, если поле называется "passport", а не "hasPassport" и по факту является словарем в значениях "имеется" и "отсутствует"
- распознавание можно улучшить зная контекст, источник данных, дополнительные метаданные и тд., но это какое-то дополнительное направление исследований, скорее научное чем практическое.

В общем и целом могу сказать что такое разнообразие данных полезно для разработки алгоритмов несмотря даже на бесполезность данных для практического использования.

Но даже для такой задачи есть ключевая проблема - это качество данных. Я не просто так пишу про то что госданные, в целом, это мусор.
Вот лишь несколько характеристик именно низкого качества данных:
- CSV файлы публикуются в разных кодировках и с разными разделителями (это, отчасти, преодолимо)
- CSV файлы очень часто публикуются без заголовков, например, многие данные из ХМАО (это реальная проблема)
- многие расширения файлов не соответствуют содержанию. CSV или ZIP вместо XML, HTML вместо CSV и так далее
- многие ссылки на файлы на других сайтах давно протухли, например, ссылки на сайт fstrf.ru давно ведут на какой-то левый сайт.
- вместо настоящих XML файлов с данными публикуются файлы разметки. Я об этом писал ранее, это вообще напоминает какой-то подлог
- многие CSV файлы это кривой экспорт из Excel с многострочтными заголовками и строками ИТОГО нарушающими разбор файла
- огромное число файлов просто пустые

Делать полную оценку причин и проблем с качеством открытых гос данных долго, я пишу о том насколько они влияют на возможность их автоматизированного анализа. Собственно по причинам выше и из 26+ тысяч наборов данных удалось обработать около 18+ тысяч и среди обработанных есть ошибки связанные с неверными заголовками у CSV файлов.

При этом, не в защиту российских чиновников, а в сторону госчиновников в принципе могу сказать что мало где в мире над качеством открытых данных реально работают. Я недавно общался с командой одного из крупных продуктов по публикации открытых данных и они говорят что чиновники по всему миру просят их, скорее, добавить возможность публикации PDF'ов и других плохоструктурированных данных, чем мониторинг качества данных.

Но всё постепенно меняется и я про качество данных расскажу ещё не раз.

#opendata #datasets #metadata #metacrafter #apicrafter
Google решили пристыдить Apple создав специальный сайт Get the message [1] для кампании по внедрению протокола/стандарта RCS [2] для передачи текстовых сообщений.

RCS - это, действительно, стандарт и, действительно, Apple его не поддерживает, только тут важно помнить что RCS в отличие от iMessage не поддерживает опции end-to-end шифрования (шифрования точка-точка) [3] и подвержено "законному перехвату". В Google, активно промоутирующих RCS, не могут этого не знать. Поэтому открытые стандарты - это хорошо, но открытые небезопасные стандарты по умолчанию - это ничего хорошего.

Впрочем и закрытость экосистемы Apple - это тоже ничего хорошего ни для кого кроме самой компании, но как-то не хочется выбирать между проприетарной безопасностью и непропроприетарной госслежкой.


Ссылки:
[1] https://www.android.com/get-the-message/
[2] https://www.gsma.com/futurenetworks/rcs/
[3] https://indianexpress.com/article/technology/social/google-new-chat-service-wont-be-secure-like-imessage-and-whatsapp-amnesty-international-5147050/

#standards #google #apple #messaging #rcs #privacy
Интересная статья венских исследователей о том что можно снизить рассеивание сигнала WiFi с помощью специального "антибликового" покрытия на стенах. Об этом в статье в Nature [1] и в более понятном изложении в NewsWeek [2]․

Идея такая что если перед железобетонной стеной создать поверхность аналогичную антибликовому покрытию на очках, только применительно к радиоволнам в определенном диапазоне, то сигнал не рассеивается, а, наоборот, значительно лучше передается далее.

В статье акцент на технологиях 6G и того что такие разработки будут полезны, а я вот не могу не смотреть на это с других точек зрения.

Во первых интересно как будут меняться строительные нормы и практическое применение. Если для бизнес центров применение будет довольно очевидным, то в жилых домах наличие такого покрытия на стенах и потолках позволит на последней миле использовать не роутер-в-каждой-квартире, а, условно, один роутер на 3 этажа. Возможно ли такое? Практично ли такое?

Во вторых увеличение дальности передачи сигнала - это, ведь, ещё и увеличение дальности приёма сигнала. Увеличит ли это точность геопозиционирования с помощью Wifi? Создаст ли это возможность отслеживать перемещение конкретного устройства в закрытых помещениях на большем расстоянии?

Ссылки:
[1] https://www.nature.com/articles/s41586-022-04843-6.epdf?sharing_token=IZPhXGh_UB8vpyGhMtbWFNRgN0jAjWel9jnR3ZoTv0OJKS2U2m5YIN0ttreuTZyoFceV-NgY6T0XAsRIt97bgyhYGbkxzf4IbIhkuCeqiTI4jWocZlHGQqCpzHYMakiv7f_xbv1IsgN42Ol2Szv9d2RyISqm5pBgA1pdoqH4kIgCZTP-bL6x5tDLwNmJDMqURyYJDSAZuWRxAm-xWlG0QN6jWlN12Ikp-cntE2eFW24%3D&tracking_referrer=www.newsweek.com
[2] https://www.newsweek.com/new-wifi-reflection-tech-could-send-signal-through-impenetrable-walls-1732088

#wifi #privacy
В рубрике как это устроено у них B2Find EUDAT [1] поисковик по научным данным в европейских репозиториях данных. Охватывает более 1 миллиона наборов данных, позволяет фильтровать по:
- языку
- временному промежутку
- формату
- организации
- году публикации
- ключевым словам
- научной дисциплине
и, в общей сложности, более чем 20 критериям.

Работает на базе движка с открытым кодом CKAN и использует его агрегационные механизмы.

Крупнейшие индексируемые репозитории:
- Nordic Archaeology [2]
- PANGAEA [3]
- DANS-EASY [4]
Всего репозиториев 36 на сегодняшний день.

Для агрегации используются стандарты метаданных:
- Datacite
- DublinCore
- OpenAire
- ISO 10115/19139 (INSPIRE)
- DDI 2.5
и собственная схема EUDAT Core Metadata Schema.

По формату проект нацелен на повышение находимости данных (data discovery) для научных целей.

По масштабу сравнимо с DataCite - поиск по 35 миллионам проиндексированных DOI для наборов данных и 17 миллионам наборов исследовательских данных в OpenAIRE.

Пока непонятно продолжится ли этот проект или все активности перешли/перейдут в OpenAIRE, но B2Find остаётся как пример большого поисковика по научным данным.

Ссылки:
[1] http://b2find.eudat.eu/
[2] http://b2find.eudat.eu/organization/nordicar
[3] http://b2find.eudat.eu/organization/pangaea
[4] http://b2find.eudat.eu/organization/danseasy

#opendata #researchdata #openaccess #datasets #search
В рубрике интересных проектов на данных, проекты в области цифровых гуманитарных наук.

OmiaViae [1] планировщик пути по дорогам Римской Империи. Можно задать город выхода и город куда ты направляешься и сервис построит дорогу. Основан он на данных из Tabula Peutingeriana копии карты публичных римских дорог. Ей посвящён отдельный сайт и собраны данные [2]․

В основе этого же проекта ещё один проект по истории античности Vici [3] созданный в виде пополняемой семантической вики с картой Европы и не только с местами связанными с античными событиями. Проект претендует на то чтобы быть Wikidata для античности, ну или интегрироваться в Wikidata в будущем.

А в основе их всех проект Pleiades [4], большая открытая база данных созданная в Ancient World Mapping Center and Institute for the Study of the Ancient World. В ней опубликованы данные о 39,503 местах, 35,825 именах, 42,338 местонахождениях. Всё это доступно под свободной лицензией CC0 и в виде JSON, CSV, RDF и KML форматов данных.

Всё это примеры того что историки могут создавать на основе накопленных открытых данных. Есть много других похожих проектов и многие ещё ожидают своих создателей.

Ссылки:
[1] https://omnesviae.org
[2] https://www.tabula-peutingeriana.de/
[3] https://vici.org
[4] https://pleiades.stoa.org

#opendata #digitalhumanities #datasets