Forwarded from Национальный цифровой архив
Закрывается Flibusta [1], независимый библиотечный ресурс, через несколько недель может прекратить свое существование. Причина - рак у его создателя и администратора.
Совершенно точно у книг Flibusta есть множество архивных копий на торрентах, но эти архивные копии не включают обсуждений, материалов форумов, иных текстов с сайтов, не относящихся к книгам.
Кроме того в торрент трекерах книги, или обновлениями за период, или полным дампом, что усложнит чтение тем кому нужна не библиотека целиком, а собственный список для чтения. Имеет смысл сохранить книги которые Вы читаете заранее.
Ссылки:
[1] https://flibusta.is/node/681117
#digitalpreservation #books #flibusta
Совершенно точно у книг Flibusta есть множество архивных копий на торрентах, но эти архивные копии не включают обсуждений, материалов форумов, иных текстов с сайтов, не относящихся к книгам.
Кроме того в торрент трекерах книги, или обновлениями за период, или полным дампом, что усложнит чтение тем кому нужна не библиотека целиком, а собственный список для чтения. Имеет смысл сохранить книги которые Вы читаете заранее.
Ссылки:
[1] https://flibusta.is/node/681117
#digitalpreservation #books #flibusta
Группа крупных лэйблов хотят засудить [1] интернет-архив Archive.org за оцифровку старых аудиозаписей. Казалось бы что такого, но сумма иска составляет $621 миллион и, если он реализуется, то интернет архив просто исчезнет.
Хочется надеяться что Интернет архив от иска отобьётся потому что альтернатив ему нет. Это уникальный проект, при этом сильно недофинансированный.
Ссылки:
[1] https://www.rollingstone.com/music/music-features/internet-archive-major-label-music-lawsuit-1235105273/
#digitalpreservation #archives
Хочется надеяться что Интернет архив от иска отобьётся потому что альтернатив ему нет. Это уникальный проект, при этом сильно недофинансированный.
Ссылки:
[1] https://www.rollingstone.com/music/music-features/internet-archive-major-label-music-lawsuit-1235105273/
#digitalpreservation #archives
Rolling Stone
Inside the $621 Million Legal Battle for the ‘Soul of the Internet’
Major record labels have sued the Internet Archive for $621 million over thousands of old recordings, raising the question: Who owns the past?
Свежее регулирование выдачи сертификатов российского НУЦ [1] предполагающее выдачу сертификатов национального удостоверяющего центра веб сайтам/сервисам и это к вопросу о том когда сайты российских госорганов и госучреждений начнут выпадать из поисковиков Google, Bing, а также более не архивироваться в Интернет Архиве.
Из интернет архива многие госсайты уже повыпадали [2] [3] [4] и многие другие могут исчезнуть в будущем.
Я бы сказал что уже давно переходить к архивации всех сайтов российских госорганов, но задача эта не только трудоёмкая, но и финансово затратная - на оборудование и на хранение, пока мы своими силами в рамках Национального цифрового архива [5] не решили. Нехватает времени/ресурсов даже нормальный каталог заархивированного сделать.
Но острота проблемы с недоступностью и потенциальной потерей контента не снимается.
Ссылки:
[1] https://yangx.top/ep_uc/2981
[2] https://web.archive.org/web/20240000000000*/https://minjust.gov.ru
[3] https://web.archive.org/web/20240000000000*/https://rkomi.ru
[4] https://web.archive.org/web/20240000000000*/https://www.mnr.gov.ru
[5] https://ruarxive.org
#digitalpreservation #webarchival #russia
Из интернет архива многие госсайты уже повыпадали [2] [3] [4] и многие другие могут исчезнуть в будущем.
Я бы сказал что уже давно переходить к архивации всех сайтов российских госорганов, но задача эта не только трудоёмкая, но и финансово затратная - на оборудование и на хранение, пока мы своими силами в рамках Национального цифрового архива [5] не решили. Нехватает времени/ресурсов даже нормальный каталог заархивированного сделать.
Но острота проблемы с недоступностью и потенциальной потерей контента не снимается.
Ссылки:
[1] https://yangx.top/ep_uc/2981
[2] https://web.archive.org/web/20240000000000*/https://minjust.gov.ru
[3] https://web.archive.org/web/20240000000000*/https://rkomi.ru
[4] https://web.archive.org/web/20240000000000*/https://www.mnr.gov.ru
[5] https://ruarxive.org
#digitalpreservation #webarchival #russia
Telegram
Об ЭП и УЦ
⚡️Сертификат безопасности национального удостоверяющего центра
Именно с таким названием в Законе об электронной подписи появится статья под номером 18.3 для закрепления выдачи сертификатов безопасности национальным удостоверяющим центром. Минцифры разработан…
Именно с таким названием в Законе об электронной подписи появится статья под номером 18.3 для закрепления выдачи сертификатов безопасности национальным удостоверяющим центром. Минцифры разработан…
Forwarded from Национальный цифровой архив
Для тех кто работает с архивами сайтов в формате WARC свежий инструмент WARC-GPT [1] по исследованию содержимого WARC файлов с использованием большой языковой модели (ИИ).
С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.
Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt
#opensource #digitalpreservation #ai #webarchives
С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.
Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt
#opensource #digitalpreservation #ai #webarchives
Я не так давно размышлял и писал про сложности того как некоммерческие проекты превращаются в коммерческие, когда какой-то open source продукт превращается его командой в SaaS сервис и сейчас наблюдаю подобное в области веб-архивации. Оказывается команда Webrecord в 2024 создала SaaS сервис Browsertrix [1] на базе одноимённого open source продукта по архивации сайтов. Ценник там не то чтобы сильно кусается, начинается с $30 в месяц, но, есть нюансы. Главный из них в том что конкурируют они сами с собой. У них есть довольно неплохой одноимённый движок [2] под AGPL который можно развернуть самостоятельно и сохранить свои веб-сайты.
С одной стороны это хорошая новость, а с другой это сложно сочетается с тем что они много создавали открытого кода по работе с WARC файлами и создали стандарт WACZ для более продвинутой архивации сайтов.
С точки зрения устойчивости проекта и бизнеса я их прекрасно понимаю, а с точки зрения пользователя их кода немного опасаюсь.
Хороших открытых продуктов по веб-архивации мало и они становятся коммерческими всё более и более(
Ссылки:
[1] https://webrecorder.net/browsertrix/
[2] https://github.com/webrecorder/browsertrix
#digitalpreservation #webarchives
С одной стороны это хорошая новость, а с другой это сложно сочетается с тем что они много создавали открытого кода по работе с WARC файлами и создали стандарт WACZ для более продвинутой архивации сайтов.
С точки зрения устойчивости проекта и бизнеса я их прекрасно понимаю, а с точки зрения пользователя их кода немного опасаюсь.
Хороших открытых продуктов по веб-архивации мало и они становятся коммерческими всё более и более(
Ссылки:
[1] https://webrecorder.net/browsertrix/
[2] https://github.com/webrecorder/browsertrix
#digitalpreservation #webarchives
Незаметное, но существенное одно из последствий AI хайпа последних лет в том что некоммерческий проект независимого открытого поискового индекса Common Crawl в 2023 году привлек 1.3 миллиона долларов [1] пожертвований из которых $500 тыс от его основателя Gil Elbaz, а ещё по $250 тыс. от ИИ компаний OpenAI и Anthropic, $100 от Andreessen Horowitz и ещё $50 от DuckDuckGo.
Для сравнения, в 2022 году бюджет CC оставлял $450 тыс, а в 2020 всего $75 тысяч.
В последнее время Common Crawl используется для обучение LLM и их индекс неоднократно обвиняли в том что в нем содержатся материалы под копирайтом, а также в том что 40% проиндексированных текстов на английском языке.
Важнее то что весь их проект основан на экосистеме инструментов WARC и, кстати, DuckDB и файлов Parquet.
В планы на 2025 год они закладывали создание инструментов с открытым кодом для лучшего понимания их датасетов [3], что интересно поскольку инструментов визуализации и навигации по WARC файлам веб архивов явно нехватает.
Ссылки:
[1] https://commoncrawl.org
[2] https://projects.propublica.org/nonprofits/organizations/261635908
[3] https://commoncrawl.org/blog/august-september-2024-newsletter
#digitalpreservation #webarchives #opendata
Для сравнения, в 2022 году бюджет CC оставлял $450 тыс, а в 2020 всего $75 тысяч.
В последнее время Common Crawl используется для обучение LLM и их индекс неоднократно обвиняли в том что в нем содержатся материалы под копирайтом, а также в том что 40% проиндексированных текстов на английском языке.
Важнее то что весь их проект основан на экосистеме инструментов WARC и, кстати, DuckDB и файлов Parquet.
В планы на 2025 год они закладывали создание инструментов с открытым кодом для лучшего понимания их датасетов [3], что интересно поскольку инструментов визуализации и навигации по WARC файлам веб архивов явно нехватает.
Ссылки:
[1] https://commoncrawl.org
[2] https://projects.propublica.org/nonprofits/organizations/261635908
[3] https://commoncrawl.org/blog/august-september-2024-newsletter
#digitalpreservation #webarchives #opendata
Я вот тут попытался поискать в Perplexity данные по культурному наследию Армении и... если долго искать находишь самого себя. В первом же результате каталог открытых данных Армении data.opendata.am
С одной стороны приятно, а с другой что-то печально.
P.S. Печально потому что хочется чтобы людей занимающихся цифровизацией культурного наследия было больше и их работа была заметнее.
#opendata #armenia #digitalpreservation #culture
С одной стороны приятно, а с другой что-то печально.
P.S. Печально потому что хочется чтобы людей занимающихся цифровизацией культурного наследия было больше и их работа была заметнее.
#opendata #armenia #digitalpreservation #culture
В рубрике интересных наборов данных много датасетов связанных с переходом власти в США, в первую очередь созданных активистами спасающими данные скрываемые/удаляемые администрацией Трампа.
End of term archive [1] совместный проект International Internet Preservation Consortium (IIPC), National Digital Infrastructure and Preservation Program (NDIIPP), Университетов Стенфорда и Джорджа Вашингтона, по архивации всех данных и цифровых материалов при смене президентов в США. Включает коллекции за 2008, 2012, 2016 и 2020 годы. Общий объём датасетов порядка 450TB.
Работа идёт в форме открытого кода [2] и открытых датасетов [3] и сейчас продолжается архивация ресурсов связанных с прошлой администрацией Байдена [4]. Копия данных хранится в Интернет Архиве [5] и, на сегодняшний день, составляет более 582 TB
Другой проект ForeignAssistance dot gov emergency backup [7] архив государственного сайта ForeignAssistance.gov где USAID раскрывали аналитику международной помощи. Он, также, был закрыт во время закрытия USAID. Всё что удалось сохранить автор проекта превратил в наборы данных CSV
Data.gov archive [8] проект по архивации данных из портала Data.gov от Harvard Law School Library и все данные они выложили в открытый каталог данных большого объёма Source Cooperative [9]. Лично я не ожидал что они выложат его именно туда, в Source Cooperative по большей части геоданные, но зато и хранение заточено под облачное хранение в амазоне данных большого объёма. Всего 16TB
Проект Environment Data & Governance Initiative продолжил работу после первого срока Трампа и с января месяца они постоянно сохраняют климатические данные и ресурсы. Подобнее в их блоге [10]
—
А также существует значительное число инициатив меньшего масштаба.
Сохранение данных, цифровых объектов и знаний становится всё более значимой задачей. Кто-то выделяет на него личное время, кто-то ресурсы и сотрудников (проект EOT Archive), кто-то быстро находит финансирование (проект архива Data.gov был профинансирован Фондом Братьев Рокфеллеров).
Ссылки:
[1] https://eotarchive.org
[2] https://github.com/end-of-term
[3] https://eotarchive.org/data/
[4] https://github.com/end-of-term/eot2024
[5] https://archive.org/details/EndofTermWebCrawls
[6] https://archive.org/details/EndOfTerm2024WebCrawls
[7] https://foreignassistance.andrewheiss.com/
[8] https://lil.law.harvard.edu/blog/2025/02/06/announcing-data-gov-archive/
[9] https://source.coop/repositories/harvard-lil/gov-data/description
[10] https://envirodatagov.org/blog/
#digitalpreservation #webarchives #trump #usa
End of term archive [1] совместный проект International Internet Preservation Consortium (IIPC), National Digital Infrastructure and Preservation Program (NDIIPP), Университетов Стенфорда и Джорджа Вашингтона, по архивации всех данных и цифровых материалов при смене президентов в США. Включает коллекции за 2008, 2012, 2016 и 2020 годы. Общий объём датасетов порядка 450TB.
Работа идёт в форме открытого кода [2] и открытых датасетов [3] и сейчас продолжается архивация ресурсов связанных с прошлой администрацией Байдена [4]. Копия данных хранится в Интернет Архиве [5] и, на сегодняшний день, составляет более 582 TB
Другой проект ForeignAssistance dot gov emergency backup [7] архив государственного сайта ForeignAssistance.gov где USAID раскрывали аналитику международной помощи. Он, также, был закрыт во время закрытия USAID. Всё что удалось сохранить автор проекта превратил в наборы данных CSV
Data.gov archive [8] проект по архивации данных из портала Data.gov от Harvard Law School Library и все данные они выложили в открытый каталог данных большого объёма Source Cooperative [9]. Лично я не ожидал что они выложат его именно туда, в Source Cooperative по большей части геоданные, но зато и хранение заточено под облачное хранение в амазоне данных большого объёма. Всего 16TB
Проект Environment Data & Governance Initiative продолжил работу после первого срока Трампа и с января месяца они постоянно сохраняют климатические данные и ресурсы. Подобнее в их блоге [10]
—
А также существует значительное число инициатив меньшего масштаба.
Сохранение данных, цифровых объектов и знаний становится всё более значимой задачей. Кто-то выделяет на него личное время, кто-то ресурсы и сотрудников (проект EOT Archive), кто-то быстро находит финансирование (проект архива Data.gov был профинансирован Фондом Братьев Рокфеллеров).
Ссылки:
[1] https://eotarchive.org
[2] https://github.com/end-of-term
[3] https://eotarchive.org/data/
[4] https://github.com/end-of-term/eot2024
[5] https://archive.org/details/EndofTermWebCrawls
[6] https://archive.org/details/EndOfTerm2024WebCrawls
[7] https://foreignassistance.andrewheiss.com/
[8] https://lil.law.harvard.edu/blog/2025/02/06/announcing-data-gov-archive/
[9] https://source.coop/repositories/harvard-lil/gov-data/description
[10] https://envirodatagov.org/blog/
#digitalpreservation #webarchives #trump #usa
В качестве регулярного напоминания портал российский государственный портал открытых данных data.gov.ru недоступен почти два года, с начала марта 2023 года. Новая версия должна быть открыта в этом году, но почти наверняка не будет содержать всех данных что были ранее.
В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.
Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #opengov #russia #datasets #digitalpreservation #webarchives
В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.
Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #opengov #russia #datasets #digitalpreservation #webarchives
hubofdata.ru
Архив данных портала открытых данных РФ data.gov.ru на 2 февраля 2022 г - Хаб открытых данных
Слепок всех данных с портала data.gov.ru на 2 февраля 2022 г.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.
В рубрике интересных открытых данных проект The Data Liberation Project [1] создан командой НКО MuckRock [2] в США и содержит наборы данных которые они каким-либо способом получили, очистили, переформатировали и подготовили. В основном это данные интересные для журналистов и на которые благодаря их работе можно сослаться. Например, там есть датасет по использованию воды [3] из реестра USGS или база жалоб заключенных [4].
Значительная часть данных получена через FOI запросы к органами власти, а далее преобразована ими в форматы SQlite, превращено в веб сайты и тд.
Можно было бы назвать их каталогом данных, но скорее просто список. Значительную часть результатов они публикуют просто файлами на Google Drive. С другой стороны они готовят весьма осмысленную документацию на наборы данных [5].
Я вспомнил про него ещё и потому что увидел что MuckRock хостят онлайн мероприятие посвящённое архивации федеральных данных в США [6] с участием главы Интернет Архива, Марка Грехэма и Джека Кушмана из Harvard Law School Library Innovation Lab. Первые ведут проект End of term с архивом материалов прошлой администрации, а вторые сделали полный слепок данных data.gov на 16TB.
Ссылки:
[1] https://www.data-liberation-project.org
[2] https://www.muckrock.com
[3] https://www.data-liberation-project.org/datasets/usgs-water-use-inventory/
[4] https://www.data-liberation-project.org/datasets/federal-inmate-complaints/
[5] https://docs.google.com/document/d/1vTuyUFNqS9tex4_s4PgmhF8RTvTb-uFMN5ElDjjVHTM/edit?tab=t.0#heading=h.iw2h1hjfzqu0
[6] https://www.muckrock.com/news/archives/2025/feb/10/federal-data-is-disappearing-on-thursday-meet-the-teams-working-to-rescue-it-and-learn-how-you-can-help/
#opendata #opengov #digitalpreservation
Значительная часть данных получена через FOI запросы к органами власти, а далее преобразована ими в форматы SQlite, превращено в веб сайты и тд.
Можно было бы назвать их каталогом данных, но скорее просто список. Значительную часть результатов они публикуют просто файлами на Google Drive. С другой стороны они готовят весьма осмысленную документацию на наборы данных [5].
Я вспомнил про него ещё и потому что увидел что MuckRock хостят онлайн мероприятие посвящённое архивации федеральных данных в США [6] с участием главы Интернет Архива, Марка Грехэма и Джека Кушмана из Harvard Law School Library Innovation Lab. Первые ведут проект End of term с архивом материалов прошлой администрации, а вторые сделали полный слепок данных data.gov на 16TB.
Ссылки:
[1] https://www.data-liberation-project.org
[2] https://www.muckrock.com
[3] https://www.data-liberation-project.org/datasets/usgs-water-use-inventory/
[4] https://www.data-liberation-project.org/datasets/federal-inmate-complaints/
[5] https://docs.google.com/document/d/1vTuyUFNqS9tex4_s4PgmhF8RTvTb-uFMN5ElDjjVHTM/edit?tab=t.0#heading=h.iw2h1hjfzqu0
[6] https://www.muckrock.com/news/archives/2025/feb/10/federal-data-is-disappearing-on-thursday-meet-the-teams-working-to-rescue-it-and-learn-how-you-can-help/
#opendata #opengov #digitalpreservation
Написал в рассылку про инструменты веб архивации и об отличиях инструментов из экосистемы WARC используемые в веб архивах и современных краулеров собирающих контент с веб сайтов.
#digitalpreservation #webarchives #WARC #crawling
#digitalpreservation #webarchives #WARC #crawling
Ivan’s Begtin Newsletter on digital, open and preserved government
Веб-архивация и её ограничения
"Достоинство архивов в том, что они приводят нас в соприкосновение с чистой историчностью" - Клод Леви-Строс
Data Rescue Project [1] - ещё один проект в США по архивации госданных. Делается группой исследовательских организаций, сохраняют данные сами и систематизируют сохранённое другими.
В общедоступном каталоге сейчас 87 источников данных [2]
Что характерно технически используют для работы Baserow [3] - open source аналог Airtable. У нас в рамках ruarxive.org всё собрано было в Airtable что уже неудобно и, возможно, стоит смигрировать в Baserow или Mathesar.
В случае Data Rescue Project можно ещё обратить внимание на объёмы, сейчас у них сохранено порядка 5 ТБ, что с одной стороны, не так уж много, а с другой, это же не архивы сайтов, а архив именно данных.
Ссылки:
[1] https://www.datarescueproject.org/
[2] https://baserow.datarescueproject.org/public/grid/Nt_M6errAkVRIc3NZmdM8wcl74n9tFKaDLrr831kIn4
[3] https://baserow.io/
#opendata #webarchives #digitalpreservation
В общедоступном каталоге сейчас 87 источников данных [2]
Что характерно технически используют для работы Baserow [3] - open source аналог Airtable. У нас в рамках ruarxive.org всё собрано было в Airtable что уже неудобно и, возможно, стоит смигрировать в Baserow или Mathesar.
В случае Data Rescue Project можно ещё обратить внимание на объёмы, сейчас у них сохранено порядка 5 ТБ, что с одной стороны, не так уж много, а с другой, это же не архивы сайтов, а архив именно данных.
Ссылки:
[1] https://www.datarescueproject.org/
[2] https://baserow.datarescueproject.org/public/grid/Nt_M6errAkVRIc3NZmdM8wcl74n9tFKaDLrr831kIn4
[3] https://baserow.io/
#opendata #webarchives #digitalpreservation
Полезные ссылки про данные, технологии и не только:
- Economic Implications of Data Regulation [1] отчёт ОЭСР про последствия регулирования данных в контексте ИИ, персональных данных и глобальных платформ. В частности новый термин в словарь - data free flows with trust (DFFT).
- Trump has free rein over Dutch government data [2] один из примеров того что в ЕС всё больше журналистов, активистов и чиновников поднимают вопрос о Европейском цифровом суверенитете. Что-то напоминает, да? В основе страхов мюнхенская речь Вэнса и санкции против Международного уголовного суда
- Health Data Preservation Project [3] проект по архивации данных о здравоохранении в США. В целом там сейчас более 20 проектов архивации научных и государственных данных, многие объединяют усилия в этой области
- Language Data Commons of Australia Data Portal [4] портал данных открытых языковых ресурсов в Австралии. Существенная их часть - это аудиозаписи, но их тоже относят к данным.
- Wikipedia Recognized as a Digital Public Good [5] Википедия признана Цифровым общественным благом. Что, наверняка, неплохо для фонда Викимедия. Вся эта инициатива под эгидой одноименного альянса связанного с UNICEF и UNDP.
Ссылки:
[1] https://www.oecd.org/en/publications/economic-implications-of-data-regulation_aa285504-en.html
[2] https://ioplus.nl/en/posts/trump-has-free-rein-over-dutch-government-data
[3] https://healthjournalism.org/resources/health-data-preservation-project/
[4] https://data.ldaca.edu.au
[5] https://wikimediafoundation.org/news/2025/02/12/wikipedia-recognized-as-a-digital-public-good/
#opendata #digitalpreservation #dataregulation #readings
- Economic Implications of Data Regulation [1] отчёт ОЭСР про последствия регулирования данных в контексте ИИ, персональных данных и глобальных платформ. В частности новый термин в словарь - data free flows with trust (DFFT).
- Trump has free rein over Dutch government data [2] один из примеров того что в ЕС всё больше журналистов, активистов и чиновников поднимают вопрос о Европейском цифровом суверенитете. Что-то напоминает, да? В основе страхов мюнхенская речь Вэнса и санкции против Международного уголовного суда
- Health Data Preservation Project [3] проект по архивации данных о здравоохранении в США. В целом там сейчас более 20 проектов архивации научных и государственных данных, многие объединяют усилия в этой области
- Language Data Commons of Australia Data Portal [4] портал данных открытых языковых ресурсов в Австралии. Существенная их часть - это аудиозаписи, но их тоже относят к данным.
- Wikipedia Recognized as a Digital Public Good [5] Википедия признана Цифровым общественным благом. Что, наверняка, неплохо для фонда Викимедия. Вся эта инициатива под эгидой одноименного альянса связанного с UNICEF и UNDP.
Ссылки:
[1] https://www.oecd.org/en/publications/economic-implications-of-data-regulation_aa285504-en.html
[2] https://ioplus.nl/en/posts/trump-has-free-rein-over-dutch-government-data
[3] https://healthjournalism.org/resources/health-data-preservation-project/
[4] https://data.ldaca.edu.au
[5] https://wikimediafoundation.org/news/2025/02/12/wikipedia-recognized-as-a-digital-public-good/
#opendata #digitalpreservation #dataregulation #readings