Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
May 15, 2016
Сегодня после расформирования Роспечати и Россвязи сразу несколько журналистов мне позвонило и спросило про судьбу Минцифры, не будет ли оно усилено. Я честно, говоря, не понимаю зачем об этом спрашивать меня, я не так много знаю про Минцифру, если честно. Вот если бы ДИТ Москвы расформировывали, была бы куда более интересная новость, ну а Роспечать и Россвязь да и ещё многие органы власти - это скорее персонифицированные артефакты, чем полноценные институциональные регуляторы.

Но вот никто не спросил меня про да и не пишет, а что будет со всем тем цифровым барахлом ценными цифровыми материалами что на сайтах Роспечати и Россвязи накоплены?

Я занимаюсь тем что сохраняю их сайты. В чём их особенность?
1. У обоих ведомств практически нет информационных систем (нет в открытом доступе)
2. И там и там основные каналы коммуникации - это сайты.
3. По сайтам обоих ведомств их судьба непонятна. В России только ЦБ сохраняет все архивы, а ФОИВы в этом не преуспели.

Только два сайта rossvyaz.gov.ru и fapmc.gov.ru займут не меньше 20 ГБ в сжатом виде и около 30-35 ГБ в распакованном, в основном из-за большого числа PDF документов.

Их судьба остаться на нашем Национальном цифровом архиве [1] и если вскоре они исчезнут, то Вы всегда знаете где найти оттуда информацию.

P.S. Надо отдать должное и сказать что приятно что Минцифры - это не МВД. Когда передавали полномочия ФМС и ФСКН в МВД, то их сайты исчезли одномоментно с официальным опубликованием решения. Вжух и нету!


Ссылки:
[1] http://ruarxive.org

#webarchive #ruarxive #archival
November 20, 2020
November 21, 2020
Продолжаю публиковать крупнейшие наборы данных для исследователей.

Крупнейший в России архив всех сайтов сохраненных в Национальном цифровом архиве [1] размещён в каталоге NGOData [2].
Архив включает CSV файл с метаданными по 50 тысячам файлам хранимым в рамках сфокусированной архивации с 2012 по 2020 годы включительно. В общей сложности - это 9 ТБ в сжатом виде и сильном большее в распакованном виде, около 20-30 ТБ. Этот список пополняется, потому что значительная часть работы ещё не закончена и по мере систематизации ранее сделанной работы и продолжения архивации данных будет больше. Для внешних пользователей также приведены ссылки для выгрузки самих архивов, для этого все они загружены в резервное хранилище из которого может скачивать файлы любой желающий.

Отвечая заранее на вопросы.
1. Что содержится в архиве?
В основном это архивы госсайтов и ресурсов находящихся под риском закрытия. Например, сайты закрывавшихся банков или институтов развития.

2. Зачем нужно архивировать сайты есть есть Интернет-архив?
Интернет-архив собирает далеко не всё, а в первую очередь наиболее часто посещаемые и цитируемые сайты и он не собирает иные файлы помимо HTML. В нашем архиве хранится файлы всех типов, архивация проводится по "тотальному принципу" и, обычно, не архивируются только видео файлы

3. Можно ли с этими данными работать через веб-интерфейс?
Пока нет, мы работаем над тем чтобы он появился в следующем году. Помощь и волонтеры очень востребованы. Пишите мне на https://yangx.top/ibegtin если владеете навыками программирования.

4. Кто ведёт этот проект?
Проект национального цифрового архива ведёт АНО "Информационная культура' помочь ему можно, например, пожертвованием здесь https://ruarxive.org/donate/

5. Откуда финансирование?
Это негосударственный некоммерческий проект созданный АНО Инфокультура без какой-либо государственной поддержки и с небольшой частной поддержкой мощностями для хранения данных.

6. Какая польза от данных веб-архивов?
В веб архивах оказываются многочисленные данные публикуемые, например, органами власти в XLS/XLSX формате и многое другое. Автоматические роботы могут извлекать их из WARC файлов напрямую. Чтобы понять содержимое WARC файлов достаточно скачивать файлы в формате CDX.

Ссылки:
[1] https://ruarxive.org
[2] https://ngodata.ru/dataset/groups/ruarxive-dump

#webarchive #data #datasets
December 16, 2020
December 18, 2020