Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
Должны ли историки программировать? А писатели или литературные критики? В мире довольно многое происходит в направлениях Digital Humanities и Computational Humanities, Цифровых гуманитарных наук.

В последние годы быть гуманитарием не означает что нельзя быть программистом, например, такие проекты как Programming Historian [1] помогает историкам использовать инструменты для работы с данными, подключаться к цифровым онлайн библиотекам через API, развертывать продукты по визуализации исторических данных, анализировать и распознавать тексты и многое другое.

Многие публикуют результаты своих работ как открытый код или исполнимые статьи (executable papers), например, статья Forgotten Books [2] о выживании культуры.

Digital Humanities есть и в России, есть несколько университетов с этими направлениями в обучении.

Чтобы цифровые гуманитарные науки развивались - также нужны открытые данные. Открытые данные музеев, галерей, библиотек и, в первую очередь, архивов. При этом нельзя сказать что этих данных нет, но можно говорить о том что они не публикуются.

Например, Росархив публикует исключительно административные данные [3] которые никому не нужны и не публикует даже реестры архивного фонда. А самое главное что ведомство даже не пытается выступать регулятором обеспечивающим открытость подведомственных ему государственных архивов.

Министерство культуры в России до сих пор лидер по открытию данных [4], но все мы тревожимся как долго это сохранится, учитывая смену руководства и отсутствие планов по будущему открытию данных.

Но данных много, их много в частных, общественных проектах, много в открытом доступе и возможность делать интересные проекты в этой области в России есть. Главное желание и немного технических навыков.

Ссылки:
[1] https://programminghistorian.org/
[2] https://forgotten-books.netlify.app
[3] https://archives.gov.ru/opendata
[4] http://opendata.mkrf.ru/

#opendata #digitalhumanities
February 23, 2022
August 11, 2022
September 29, 2022
В рубрике интересных наборов данных, коллекции данных создаваемые из веб-индексов

Dresden Web Table Corpus (DWTC) [1] набор данных состоящий из 125 миллионов таблиц извлеченных из архива веб-индекса Common Crawl․ Последнее обновление было в 2015 году основано на базе в 266ТБ из 3.6 миллиардов веб страниц.

Web Data Commons [2] - это коллекция из многих наборов данных созданных на основе Common Crawl и развиваемая командой университета Маннхейма. В проекте множество наборов данных созданных через извлечение объектов перечисленных в Schema.org из тела веб-страниц и иной мета информации. Например, там же свежий набор данных SOTAB с аннотированными таблицами привязанными к понятиям в Schema.org [3]

ACL Anthology [4] каталог научных публикаций и наборов данных. Включает наборы данных с полной антологией публикаций и цитированием, а также включает множество работ созданных на основе наборов данных таких как Common Crawl, например Learning Word Vectors for 157 Languages [5]

Ссылки:
[1] https://wwwdb.inf.tu-dresden.de/research-projects/dresden-web-table-corpus/
[2] http://webdatacommons.org/
[3] http://webdatacommons.org/structureddata/sotab/
[4] https://aclanthology.org/
[5] https://aclanthology.org/L18-1550/

#opendata #datasets #digitalhumanities
October 2, 2022
November 23, 2022
Как работать с данными гуманитариям, например, историкам? Где взять данные, как их подготавливать, какие банки данных и сервисы доступны онлайн? Подборка опубликованных наборов данных по древней истории։
- World-Historical Dataverse [1] от University of Pittsburgh World History Center, коллекция наборов данных посвящённых истории распространения языков, крупным историческим событиям и древней географии

- Project MERCURY datasets [2] коллекция набора данных проекта Меркурий, посвящённого компьютерному моделированию Древнего Рима

- Re3Data Ancient Cultures [3] каталоги и базы данных по древним культурам собранные в проекте Re3Data

- Europeana Datasets. Overview for Ancient World [4] наборы данных по древнему миру в проекте Европеана

- Nomisma datasets [5] проект-агрегатор открытых данных по нумизматике, включая коллекции древних монет

- Open-archaeo: A list of open source archaeological software and resources [6] каталог открытых наборов данных связанных с археологией

- Digital Humanities Platform of Shanghai Library [7] каталог связанных данных по древней истории при библиотеке Шанхая

Ссылки։
[1] https://dataverse.harvard.edu/dataverse/worldhistorical
[2] https://projectmercury.eu/datasets
[3] https://www.re3data.org/search?subjects[]=101%20Ancient%20Cultures
[4] https://pro.europeana.eu/timecoverage/ancient-world
[5] http://nomisma.org/datasets
[6] https://open-archaeo.info/tags/datasets/
[7] http://data.library.sh.cn/index

#opendata #digitalhumanities #ancienthistory #datasets #openscience
March 4, 2023
April 10, 2023
April 18, 2023
Forwarded from Open Data Armenia (Kseniia Orlova)
June 19, 2023
June 21, 2023