Архив сайта Эха Москвы (echo.msk.ru) загружен в облако и готов к выгрузке. Его содержание 63299 файлов из которых 7364 файла - это аудио записи в виде mp3 файлов.
Полный список всех файлов можно скачать по ссылке [1]. Это файл в формате CDX, значений разделённых пробелами, с указанием каждой ссылки и дополнительной информации о файле. Подробнее об этом формате в его спецификации [2]. CDX файл небольшой, из него можно понять содержание архива.
Архив в формате WARC доступен по ссылке [3]. Это файл архива в 173GB (осторожно! не выгружайте его на мобильные телефоны, он слишком велик). О том как работать с этими файлами я подробно написал ранее [4].
Желающие могут скачать и раздать архив как торрент, а как только появятся зеркала откуда можно будет скачать этот архив, то они будут перечислены на этом канале @ruarxive. Вопросы и обсуждения, напомню, в чате @ruarxivechat.
Ссылки:
[1] https://f001.backblazeb2.com/file/IKPUBLIC/webcollect2022/echomskru2022/echo.msk.ru/echo.msk.ru.cdx.zip
[2] https://iipc.github.io/warc-specifications/specifications/cdx-format/cdx-2015/
[3] https://f001.backblazeb2.com/file/IKPUBLIC/webcollect2022/echomskru2022/echo.msk.ru/echo.msk.ru.warc.gz
[4] https://yangx.top/ruarxive/5
#webarchives #digitalpreservation #archives
Полный список всех файлов можно скачать по ссылке [1]. Это файл в формате CDX, значений разделённых пробелами, с указанием каждой ссылки и дополнительной информации о файле. Подробнее об этом формате в его спецификации [2]. CDX файл небольшой, из него можно понять содержание архива.
Архив в формате WARC доступен по ссылке [3]. Это файл архива в 173GB (осторожно! не выгружайте его на мобильные телефоны, он слишком велик). О том как работать с этими файлами я подробно написал ранее [4].
Желающие могут скачать и раздать архив как торрент, а как только появятся зеркала откуда можно будет скачать этот архив, то они будут перечислены на этом канале @ruarxive. Вопросы и обсуждения, напомню, в чате @ruarxivechat.
Ссылки:
[1] https://f001.backblazeb2.com/file/IKPUBLIC/webcollect2022/echomskru2022/echo.msk.ru/echo.msk.ru.cdx.zip
[2] https://iipc.github.io/warc-specifications/specifications/cdx-format/cdx-2015/
[3] https://f001.backblazeb2.com/file/IKPUBLIC/webcollect2022/echomskru2022/echo.msk.ru/echo.msk.ru.warc.gz
[4] https://yangx.top/ruarxive/5
#webarchives #digitalpreservation #archives
Для тех кто задумывается об архивации собственных материалов, полезные ссылки на руководства и инструменты которые можно использовать:
- получить свои данные в Twitter - сервис выгрузки всех собственных данных из социальной сети Twitter
- выгрузить данные из Facebook - возможность заказать все свои данные собранные в социальной сети Facebook
- гайд по быстрой архивации материалов - примеры инструментов для архивации сайтов, социальных сетей и т.д. с инструкциями по их использованию на русском языке
- Awesome data takeout - коллекция ссылок на инструменты архивации, включая ранее упомянутые выше. На английском языке
- Digital Preservation Handbook - руководство по цифровой архивации от коалиции цифровых архивов. Ориентировано, в первую очередь, на архивистов. Включает множество ссылок на действующие проекты помогающие в цифровой архивации. На английском языке
#webarchives #archives #digitalpreservation
- получить свои данные в Twitter - сервис выгрузки всех собственных данных из социальной сети Twitter
- выгрузить данные из Facebook - возможность заказать все свои данные собранные в социальной сети Facebook
- гайд по быстрой архивации материалов - примеры инструментов для архивации сайтов, социальных сетей и т.д. с инструкциями по их использованию на русском языке
- Awesome data takeout - коллекция ссылок на инструменты архивации, включая ранее упомянутые выше. На английском языке
- Digital Preservation Handbook - руководство по цифровой архивации от коалиции цифровых архивов. Ориентировано, в первую очередь, на архивистов. Включает множество ссылок на действующие проекты помогающие в цифровой архивации. На английском языке
#webarchives #archives #digitalpreservation
Facebook
Log in or sign up to view
See posts, photos and more on Facebook.
О том как сохранять видео файлы с Youtube.
Для архивации с Youtube наиболее популярный инструмент youtube-dl [1] это утилита для командной строки где можно указать ссылку на видео и формат сохранения и скачать локально файл с видео или аудиозаписью.
Для тех кто не привык работать с командной строки, есть несколько инструментов создания пользовательских интерфейсов над этой утилитой:
- Open Video Downloader (youtube-dl-gui) [2] - интерфейс над youtube-dl
- youtube-dlG [3] - интерфейс над youtube-dl
- dvd [4] - умеет архивировать не только Youtube, но и другие видео сайты
- Hitomi Downloder [5] - умеет архивировать изображения, видео и текст с десятков сайтов
- FireDM [6] - умеет выгружать обычные файлы и видеофайлы с YouTube
А также обязательно хочу напомнить про ArchiveBox [7] проект созданный специально для ведения личных архивов. Он поддерживает, в том числе, сохранение видеофайлов, а также много разных вариантов другого контента.
Ссылки:
[1] https://ytdl-org.github.io/youtube-dl/index.html
[2] https://github.com/jely2002/youtube-dl-gui
[3] https://github.com/MrS0m30n3/youtube-dl-gui
[4] https://github.com/yausername/dvd
[5] https://github.com/KurtBestor/Hitomi-Downloader
[6] https://github.com/firedm/FireDM
[7] https://archivebox.io/
#digitalpreservation #videoarchives #archives #tools
Для архивации с Youtube наиболее популярный инструмент youtube-dl [1] это утилита для командной строки где можно указать ссылку на видео и формат сохранения и скачать локально файл с видео или аудиозаписью.
Для тех кто не привык работать с командной строки, есть несколько инструментов создания пользовательских интерфейсов над этой утилитой:
- Open Video Downloader (youtube-dl-gui) [2] - интерфейс над youtube-dl
- youtube-dlG [3] - интерфейс над youtube-dl
- dvd [4] - умеет архивировать не только Youtube, но и другие видео сайты
- Hitomi Downloder [5] - умеет архивировать изображения, видео и текст с десятков сайтов
- FireDM [6] - умеет выгружать обычные файлы и видеофайлы с YouTube
А также обязательно хочу напомнить про ArchiveBox [7] проект созданный специально для ведения личных архивов. Он поддерживает, в том числе, сохранение видеофайлов, а также много разных вариантов другого контента.
Ссылки:
[1] https://ytdl-org.github.io/youtube-dl/index.html
[2] https://github.com/jely2002/youtube-dl-gui
[3] https://github.com/MrS0m30n3/youtube-dl-gui
[4] https://github.com/yausername/dvd
[5] https://github.com/KurtBestor/Hitomi-Downloader
[6] https://github.com/firedm/FireDM
[7] https://archivebox.io/
#digitalpreservation #videoarchives #archives #tools
GitHub
GitHub - jely2002/youtube-dl-gui: A cross-platform GUI for youtube-dl made in Electron and node.js
A cross-platform GUI for youtube-dl made in Electron and node.js - jely2002/youtube-dl-gui
Для тех у кого нет возможности выкачать архив сайта Эха Москвы который мы ранее выкладывали, мы сейчас ведем выгрузку mp3 файлов отдельных передач радиостанции, они пока ещё доступны онлайн по прямым ссылкам.
Сейчас это 37277 ссылок из которых скачано 4167 файла и выгрузка продолжается.
Тем кто хочет успеть сохранить конкретные передачи, список всех выкладываем пока ещё активные ссылки.
В файле echomskru_mp3_urls.zip - все пока ещё работающие ссылки на mp3 файлы которые мы успели собрать с сайта радиостанции.
В файле echomskru_lists.zip - те же ссылки разбитые по названиям программ.
Ссылки ведут на CDN сервер Эха Москвы, он пока ещё доступен за пределами России, для выгрузки, Вам, возможно потребуется VPN подключение.
Списки можно загружать в любую программу поддерживающую выгрузку файлов списками, например Persepolis, бесплатная программы для выгрузки с открытым кодом [1].
Ссылки:
[1] https://persepolisdm.github.io/
#webarchives #archives #echomskru
Сейчас это 37277 ссылок из которых скачано 4167 файла и выгрузка продолжается.
Тем кто хочет успеть сохранить конкретные передачи, список всех выкладываем пока ещё активные ссылки.
В файле echomskru_mp3_urls.zip - все пока ещё работающие ссылки на mp3 файлы которые мы успели собрать с сайта радиостанции.
В файле echomskru_lists.zip - те же ссылки разбитые по названиям программ.
Ссылки ведут на CDN сервер Эха Москвы, он пока ещё доступен за пределами России, для выгрузки, Вам, возможно потребуется VPN подключение.
Списки можно загружать в любую программу поддерживающую выгрузку файлов списками, например Persepolis, бесплатная программы для выгрузки с открытым кодом [1].
Ссылки:
[1] https://persepolisdm.github.io/
#webarchives #archives #echomskru
Как устроены общественные проекты по цифровой архивации в мире
В мире существует много инициатив по цифровой архивации, это могут быть целевые проекты по архивации данных и кода, библиотек сканов старинных книг и многое другое. Чаще всего такие проекты инициируются государством или являются проектами госархивов и национальных библиотек. Но есть множество проектов которые созданы волонтерами для решения срочных задач, вот некоторые из них.
Climate Mirror (http://climatemirror.org/)
Зеркало данных о изменении климата. Данные собирались сообществом после прихода к власти Трампа и анонса удаления данных с государственных сайтов в США.
DataRefuge (https://www.datarefuge.org/)
Проект по сбору данных о изменении климата и состоянию окружающей среды. Также возник после действий администраций Трампа, включает архивацию данных, каталог, хакатоны по сбору данных и многое другое
End of term web archive (http://eotarchive.cdlib.org/)
Проект The End of Term Web Archive создан в Калифорнийской цифровой библиотеке при Университете Калифорнии и включает слепки всех государственных сайтов США за каждый выборный цикл: 2008, 2013, 2017 годов.
SUCHO (https://sucho.org)
Свежий проект по архивации объектов цифрового культурного наследия Украины, создан участникам из нескольких университетов в США, работает как волонтерский проект.
—
А также, конечно, важный проект ArchiveTeam (https://archiveteam.org) сообщества архивистов-активистов срочно архивирующих сайты, в первую очередь, крупнейших закрываемых проектов, например, соцсетей или сервисов коротких ссылок. Это особенно большой проект, о нем ещё напишу отдельно.
Важно то что все эти проекты основаны на открытости результатов, архивы не закрыты, не спрятаны, не складированы в неизвестном месте, а доступны для выгрузки.
#ruarxive #archives #webarchives #digitalpreservation
В мире существует много инициатив по цифровой архивации, это могут быть целевые проекты по архивации данных и кода, библиотек сканов старинных книг и многое другое. Чаще всего такие проекты инициируются государством или являются проектами госархивов и национальных библиотек. Но есть множество проектов которые созданы волонтерами для решения срочных задач, вот некоторые из них.
Climate Mirror (http://climatemirror.org/)
Зеркало данных о изменении климата. Данные собирались сообществом после прихода к власти Трампа и анонса удаления данных с государственных сайтов в США.
DataRefuge (https://www.datarefuge.org/)
Проект по сбору данных о изменении климата и состоянию окружающей среды. Также возник после действий администраций Трампа, включает архивацию данных, каталог, хакатоны по сбору данных и многое другое
End of term web archive (http://eotarchive.cdlib.org/)
Проект The End of Term Web Archive создан в Калифорнийской цифровой библиотеке при Университете Калифорнии и включает слепки всех государственных сайтов США за каждый выборный цикл: 2008, 2013, 2017 годов.
SUCHO (https://sucho.org)
Свежий проект по архивации объектов цифрового культурного наследия Украины, создан участникам из нескольких университетов в США, работает как волонтерский проект.
—
А также, конечно, важный проект ArchiveTeam (https://archiveteam.org) сообщества архивистов-активистов срочно архивирующих сайты, в первую очередь, крупнейших закрываемых проектов, например, соцсетей или сервисов коротких ссылок. Это особенно большой проект, о нем ещё напишу отдельно.
Важно то что все эти проекты основаны на открытости результатов, архивы не закрыты, не спрятаны, не складированы в неизвестном месте, а доступны для выгрузки.
#ruarxive #archives #webarchives #digitalpreservation
www.datarefuge.org
Data Refuge
Data Refuge is a community-driven, collaborative project to preserve public climate and environmental data
Национальный цифровой архив pinned «Мы начали активную архивацию онлайн сайтов исчезающих в самое ближайшее время. Это включает перезапуск нашего сайта Национального цифрового архива (ruarxive.org), запуск этого телеграм канала ruarxive и переход к архивации наиболее уязвимых и значимых сайтов.…»
Новости проекта на начало недели
Начата архивация издания Бумага (paperpaper.ru) в связи с его блокировкой в России и возможной приостановкой деятельности в будущем, поскольку как минимум домен издания находится в зоне .ru и может быть разделегирован.
Идёт перенос медиа-архива записей на Эхе Москвы в облачное хранилище и дополнительных мест для его хранения. Это порядка 465GB файлов mp3 около 20тысяч записей передач. К сожалению сохранить удалось не всё.
Идет работа над обновлением сайта проекта и созданием интерфейса над последними созданными архивами. Вначале хотя бы в самом базовом виде, так чтобы можно было посмотреть архивные материалы по коллекциям и скачать файлы архивов.
Ранее собранные архивы можно посмотреть в таблице "Планы архивации" на Airtable.
—
Если Вы знаете сайты и иные цифровые ресурсы которые могут исчезнуть в ближайшее время, напишите в чате @ruarxivechat или заполните форму.
Напомню что ключевые критерии сохранения сайта/цифрового ресурса в нашем архиве:
1) Цифровой ресурс представляет общественную ценность даже для небольшой группы людей
2) Цифровой ресурс имеет существенные риски исчезновения в ближайшее время, от дней до месяцев.
#ruarxive #news #archives
Начата архивация издания Бумага (paperpaper.ru) в связи с его блокировкой в России и возможной приостановкой деятельности в будущем, поскольку как минимум домен издания находится в зоне .ru и может быть разделегирован.
Идёт перенос медиа-архива записей на Эхе Москвы в облачное хранилище и дополнительных мест для его хранения. Это порядка 465GB файлов mp3 около 20тысяч записей передач. К сожалению сохранить удалось не всё.
Идет работа над обновлением сайта проекта и созданием интерфейса над последними созданными архивами. Вначале хотя бы в самом базовом виде, так чтобы можно было посмотреть архивные материалы по коллекциям и скачать файлы архивов.
Ранее собранные архивы можно посмотреть в таблице "Планы архивации" на Airtable.
—
Если Вы знаете сайты и иные цифровые ресурсы которые могут исчезнуть в ближайшее время, напишите в чате @ruarxivechat или заполните форму.
Напомню что ключевые критерии сохранения сайта/цифрового ресурса в нашем архиве:
1) Цифровой ресурс представляет общественную ценность даже для небольшой группы людей
2) Цифровой ресурс имеет существенные риски исчезновения в ближайшее время, от дней до месяцев.
#ruarxive #news #archives
Airtable
Airtable | Everyone's app platform
Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.
Анонсировано закрытие сервиса coub.com с 1 апреля 2022 года [1]. Coub это развлекательный сервис, из зацикленных отрывков видео с наложенными на них музыкальными дорожками. С одной стороны это развлекательный контент, а с другой стороны.
Для Coub существует несколько инструментов выгрузки контента, один из самых продвинутых - это CoubDownloader [2], а также есть какое-то количество других на Github.
Мы сейчас запустили архивацию наиболее популярных Coub'ов, из категории "Hot", постараемся сохранить и другие по возможности, но в первую очередь оцениваем ожидаемые объёмы требующие сохранения. Также пока до конца неясен масштаб общественной ценности этого контента, в ближайшее время делать такую оценку.
Если у Вас есть списки Coub'ов имеющих общественную ценность, присылайте их в чат к каналу https://yangx.top/ruarxivechat.
А также если Вы планируете сохранить какие-либо coub'ы по категориям самостоятельно, пожалуйста, поделитесь итоговыми результатами.
Ссылки:
[1] https://coub.com
[2] https://github.com/HelpSeeker/CoubDownloader
#archives #videoarchive #coub #webarchive
Для Coub существует несколько инструментов выгрузки контента, один из самых продвинутых - это CoubDownloader [2], а также есть какое-то количество других на Github.
Мы сейчас запустили архивацию наиболее популярных Coub'ов, из категории "Hot", постараемся сохранить и другие по возможности, но в первую очередь оцениваем ожидаемые объёмы требующие сохранения. Также пока до конца неясен масштаб общественной ценности этого контента, в ближайшее время делать такую оценку.
Если у Вас есть списки Coub'ов имеющих общественную ценность, присылайте их в чат к каналу https://yangx.top/ruarxivechat.
А также если Вы планируете сохранить какие-либо coub'ы по категориям самостоятельно, пожалуйста, поделитесь итоговыми результатами.
Ссылки:
[1] https://coub.com
[2] https://github.com/HelpSeeker/CoubDownloader
#archives #videoarchive #coub #webarchive
Telegram
Обсуждаем цифровую архивацию
Чат к каналу @ruarxive о цифровой архивации
Новости проекта на 17 марта 2022 года
- Начата работа над базой знаний, вскоре анонсируем репозиторий на Github к наполнению которого можно будет присоединится.
- Мы продолжаем работать над обновлённым сайтом, пока самые актуальные новости будут в этом телеграм канале
- Идёт работа по загрузке копии материалов Эха Москвы в Интернет Архив, она займет ещё какое-то время поскольку параллельно идет архивация многих цифровых ресурсов в зоне риска.
Архивация сайтов заблокированных ресурсов
Продолжается архивация сайтов издания: Colta, Tjournal, The Insider, Бумага. Начата архивация Костромского Форума Костромских джедаев (заблокирован Роскомнадзором, закрывается). В общей сложности собрано 50GB материалов, архивация продолжается.
Сделана копия сайта издания DOXA, готовится к загрузке в общедоступное хранилище.
Архивация Coub
- отправлены письма владельцам сайтам с просьбой передать в архив накопленные у них данные. Если у Вас есть прямые контакты владельцев и Вы можете им написать/спросить, это оказало бы большую помощь.
- выгружены 1952 ролика из раздела Hot, общий объём 55GB
- идёт выгрузка данных с сайта через общедоступное API по каждой категории. Это до 5000 роликов в категории. Следующим шагом будет сбор данных о всех роликах признанных лучшими
- идет подбор дополнительного хранилища для хранения больших объёмов данных из Coub
- запланирована архивация всех роликов которые можно будет успеть сохранить до конца марта.
—
Если Вы знаете что-то о сайтах и иных цифровых ресурсах которые могут исчезнуть в ближайшее время, пишите нам в чате, поставим их на первоочередную загрузку. Также мы готовы принимать любые в дар любые жесткие диски, системы сохранения, архивы с данными на любых цифровых носителях.
#digitalpreservation #archives #news
- Начата работа над базой знаний, вскоре анонсируем репозиторий на Github к наполнению которого можно будет присоединится.
- Мы продолжаем работать над обновлённым сайтом, пока самые актуальные новости будут в этом телеграм канале
- Идёт работа по загрузке копии материалов Эха Москвы в Интернет Архив, она займет ещё какое-то время поскольку параллельно идет архивация многих цифровых ресурсов в зоне риска.
Архивация сайтов заблокированных ресурсов
Продолжается архивация сайтов издания: Colta, Tjournal, The Insider, Бумага. Начата архивация Костромского Форума Костромских джедаев (заблокирован Роскомнадзором, закрывается). В общей сложности собрано 50GB материалов, архивация продолжается.
Сделана копия сайта издания DOXA, готовится к загрузке в общедоступное хранилище.
Архивация Coub
- отправлены письма владельцам сайтам с просьбой передать в архив накопленные у них данные. Если у Вас есть прямые контакты владельцев и Вы можете им написать/спросить, это оказало бы большую помощь.
- выгружены 1952 ролика из раздела Hot, общий объём 55GB
- идёт выгрузка данных с сайта через общедоступное API по каждой категории. Это до 5000 роликов в категории. Следующим шагом будет сбор данных о всех роликах признанных лучшими
- идет подбор дополнительного хранилища для хранения больших объёмов данных из Coub
- запланирована архивация всех роликов которые можно будет успеть сохранить до конца марта.
—
Если Вы знаете что-то о сайтах и иных цифровых ресурсах которые могут исчезнуть в ближайшее время, пишите нам в чате, поставим их на первоочередную загрузку. Также мы готовы принимать любые в дар любые жесткие диски, системы сохранения, архивы с данными на любых цифровых носителях.
#digitalpreservation #archives #news
Telegram
Национальный цифровой архив
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто работал/работает с данными в России и не могут найти данные портала федерального портала data.gov.ru поскольку он недоступен напомню что у нас есть полная архивная копия данных собранное на 2 февраля 2022 года [1]. 13ГБ архив и 29ГБ после распаковки. Не бог весть какие ценные там данные, но могут быть полезны тем кому они могут быть полезны.
Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #data #datagovru #russia
Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #data #datagovru #russia
hubofdata.ru
Архив данных портала открытых данных РФ data.gov.ru на 2 февраля 2022 г - Хаб открытых данных
Слепок всех данных с портала data.gov.ru на 2 февраля 2022 г.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.
Для тех кто думает о сохранении материалов с Coub.com, в репозиторий coub-archival-campaign [1] на Github выложены данные собранные через API Coub.com, это по 5000 роликов по всем категориям и доступные ролики тематически собранные в группы Hot и Featured. Все данные собраны с помощью утилиты APIBackuper [2] выгружающей запросы к API в формате JSON lines. Из этих файлов можно простым способом выгрузить списки роликов на выгрузку.
Сейчас проведена архивация роликов из разделов Hot. Далее запланирована выгрузка роликов по другим категориям и выгрузка списков лучших Coub'ов по годам.
Большой помощью будет если кто-то поможет:
a) Выгрузить списки лучших роликов из разделов Best https://coub.com/best/2021, https://coub.com/best/2020 и тд. в форматах JSONL по аналогии с данными выше
b) Поможет выгрузить Coub'ы по категориям или темам. Для архивации через несколько дней мы организуем сервер куда можно будет ролики залить и также их можно загружать в Интернет Архив archive.org, в раздел Community Video. Это возможно после создания аккаунта на сайте Интернет архива.
Ссылки:
[1] https://github.com/ruarxive/coub-archival-campaign
[2] https://github.com/ruarxive/apibackuper
#opendata #coub #archives #api
Сейчас проведена архивация роликов из разделов Hot. Далее запланирована выгрузка роликов по другим категориям и выгрузка списков лучших Coub'ов по годам.
Большой помощью будет если кто-то поможет:
a) Выгрузить списки лучших роликов из разделов Best https://coub.com/best/2021, https://coub.com/best/2020 и тд. в форматах JSONL по аналогии с данными выше
b) Поможет выгрузить Coub'ы по категориям или темам. Для архивации через несколько дней мы организуем сервер куда можно будет ролики залить и также их можно загружать в Интернет Архив archive.org, в раздел Community Video. Это возможно после создания аккаунта на сайте Интернет архива.
Ссылки:
[1] https://github.com/ruarxive/coub-archival-campaign
[2] https://github.com/ruarxive/apibackuper
#opendata #coub #archives #api
Coub
Best coubs of 2021
Watch the year's top videos! Selected by our community and Coub editorial team
Как устроена веб-архивация в мире?
Веб-архивация - это один из видов цифровой архивации или архивации цифрового контента заключающаяся в том что архив ведет себя как поисковая система и с помощью специальной программы или набора программ называемых краулерами обходит страницы веб-сайта и сохраняет их содержимое, полностью, включая все связанные ресурсы, код Javascript, CSS и тд. или же частично сохраняя только содержимое. Веб архивы можно разделить на два подхода: ненаправленные и сфокусированные.
Ненаправленные веб архивы
Ненаправленные веб архивы ведут себя как поисковые системы эмулируя их максимально близко. Они имеют набор стартовых ссылок, а далее обходят сайты исходя из критерия числа ссылок на веб страницы. Самые известные ненаправленные архиваторы - это Common Crawl [1] и Wayback Machine [2]. Их достоинство - максимальная широта охвата, они обходят почти все известные и используемые сайты в интернете. Их недостаток - неполная глубина, они не собирают видео, аудио, сжатые файлы и далеко не все изображения.
Подобные архивы, также, практически всегда предоставляют API для получения данных и метаданных, с возможностью реконструкции исчезнувших сайтов.
Сфокусированные архивы
Кроме них существует множество инициатив по так называемой сфокусированной веб-архивации.
Самые известные:
- UKWA (UK Web Archive) [3] веб архив Великобритании совместная инициатива 6 национальных библиотек страны. Архивируют только сайты в зоне .uk и некоторые другие относящиеся напрямую к Великобритании.
- UK Government Web Archive [4] веб архив всех государственных сайтов Великобритании. Поддерживается Национальной службой архивов страны, обходит все сайты в зоне .gov.uk и ещё ряд сайтов по нескольку раз в сутки.
- Webarchiv Österreich [5] веб архив Австрии, охватывает все сайты домена .at и ещё ряда сайтов относящихся к Австрии. Поддерживается национальной библиотекой Австрии.
- Australian Web Archive [6] веб архив Австралии в рамках проекта Trove, Национальной библиотеки Австралии. Архивируют сайты по 18 категориям, не используют сплошную архивацию домена .au, но отбирают сайты по их культурной ценности
Проекты по веб архивации есть в большинстве развитых стран, как правило их создают службы национальных архивов или национальные библиотеки.
Подробнее о них можно узнать в статье в Википедии [7] где перечислены десятки подобных проектов по всему миру.
Кроме этих проектов существует ряд общественных и научных/исследовательских инициатив по архивации сайтов/данных по определенным темам; изменения климата, политические исследования, сохранение культурного наследия и т.д.
Все они возможны только при наличии технических возможностей которые для веб-архивов сопоставимы с крупными технологическими проектами. Архивы требуют больших объёмов хранения данных, хороших пропускных возможностей каналов архивации и инструментов предоставления результатов архивации гражданам.
В последние годы веб-архивация меняется, многие знания и данные уходят из веб'а в социальные сети, мобильные приложения и иные способы доступа недоступные классическим веб-краулерам. Веб-архивы оказываются неполны и недостаточны для охвата современных событий, а владельцы соцсетей всячески препятствуют сбору информации из их продуктов.
Ссылки:
[1] https://commoncrawl.org
[2] https://web.archive.org
[3] https://www.webarchive.org.uk/
[4] https://www.nationalarchives.gov.uk/webarchive/
[5] https://webarchiv.onb.ac.at/
[6] https://webarchive.nla.gov.au/collection
[7] https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives
#webarchival #digitalpreservation
Веб-архивация - это один из видов цифровой архивации или архивации цифрового контента заключающаяся в том что архив ведет себя как поисковая система и с помощью специальной программы или набора программ называемых краулерами обходит страницы веб-сайта и сохраняет их содержимое, полностью, включая все связанные ресурсы, код Javascript, CSS и тд. или же частично сохраняя только содержимое. Веб архивы можно разделить на два подхода: ненаправленные и сфокусированные.
Ненаправленные веб архивы
Ненаправленные веб архивы ведут себя как поисковые системы эмулируя их максимально близко. Они имеют набор стартовых ссылок, а далее обходят сайты исходя из критерия числа ссылок на веб страницы. Самые известные ненаправленные архиваторы - это Common Crawl [1] и Wayback Machine [2]. Их достоинство - максимальная широта охвата, они обходят почти все известные и используемые сайты в интернете. Их недостаток - неполная глубина, они не собирают видео, аудио, сжатые файлы и далеко не все изображения.
Подобные архивы, также, практически всегда предоставляют API для получения данных и метаданных, с возможностью реконструкции исчезнувших сайтов.
Сфокусированные архивы
Кроме них существует множество инициатив по так называемой сфокусированной веб-архивации.
Самые известные:
- UKWA (UK Web Archive) [3] веб архив Великобритании совместная инициатива 6 национальных библиотек страны. Архивируют только сайты в зоне .uk и некоторые другие относящиеся напрямую к Великобритании.
- UK Government Web Archive [4] веб архив всех государственных сайтов Великобритании. Поддерживается Национальной службой архивов страны, обходит все сайты в зоне .gov.uk и ещё ряд сайтов по нескольку раз в сутки.
- Webarchiv Österreich [5] веб архив Австрии, охватывает все сайты домена .at и ещё ряда сайтов относящихся к Австрии. Поддерживается национальной библиотекой Австрии.
- Australian Web Archive [6] веб архив Австралии в рамках проекта Trove, Национальной библиотеки Австралии. Архивируют сайты по 18 категориям, не используют сплошную архивацию домена .au, но отбирают сайты по их культурной ценности
Проекты по веб архивации есть в большинстве развитых стран, как правило их создают службы национальных архивов или национальные библиотеки.
Подробнее о них можно узнать в статье в Википедии [7] где перечислены десятки подобных проектов по всему миру.
Кроме этих проектов существует ряд общественных и научных/исследовательских инициатив по архивации сайтов/данных по определенным темам; изменения климата, политические исследования, сохранение культурного наследия и т.д.
Все они возможны только при наличии технических возможностей которые для веб-архивов сопоставимы с крупными технологическими проектами. Архивы требуют больших объёмов хранения данных, хороших пропускных возможностей каналов архивации и инструментов предоставления результатов архивации гражданам.
В последние годы веб-архивация меняется, многие знания и данные уходят из веб'а в социальные сети, мобильные приложения и иные способы доступа недоступные классическим веб-краулерам. Веб-архивы оказываются неполны и недостаточны для охвата современных событий, а владельцы соцсетей всячески препятствуют сбору информации из их продуктов.
Ссылки:
[1] https://commoncrawl.org
[2] https://web.archive.org
[3] https://www.webarchive.org.uk/
[4] https://www.nationalarchives.gov.uk/webarchive/
[5] https://webarchiv.onb.ac.at/
[6] https://webarchive.nla.gov.au/collection
[7] https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives
#webarchival #digitalpreservation
UK Government Web Archive
We capture, preserve, and make accessible UK central government information published on the web from 1996 to present.
Как можно помочь в цифровой архивации если Вы программист?
Многие умеют программировать и хотят выступить волонтерами и помочь в архивации. Как можно это сделать? Какие задачи есть?
Задач много, не все удаётся описать сразу в виде готового ТЗ, но я постараюсь описать хотя бы кратко:
1. Агрегация из нестандартных источников (не веб).
Есть разные каналы обмена информацией, например, есть каналы в Viber, открытые чаты в WhatsApp и другие сервисы. Нужны инструменты дающие возможность данные скачивать. Сейчас ничего такого нет, весь этот контент за пределы этих экосистем не выходит. Возможно есть и другие источники важных знаний которые также надо сохранить.
2. Выгрузка данных из Instagram
Для инстаграм есть несколько инструментов выгрузки данных, но соцсеть сильно сопротивляется любым попыткам их получить. Даже самый актуальный сейчас инструмент instaloader не работает без авторизации и регулярно сталкивается с блокировками. Поэтому любые инструменты сбора данных из Instagram нужны. Лучше всего работающие с командной строки
3. Переделка текущих инструментов веб-архивации
Для веб архивации есть много инструментов. От самых простых таких как httrack и wget, до довольно сложных таких как Nutch и Heritrix. А есть несколько инструментов между ними по сложности такие как wpull и grab-site. Wpull - это переделанный wget с расширениями на Python, а grab-site - это надстройка над wpull'ом для динамического мониторинга архивации сайтов. У обоих проектов есть проблема - они не поддерживаются несколько лет, не работают, например, в Python выше 3.5 и родная операционка для них устаревшая Ubuntu 18.04. Соответственно нужна помощь очень опытных программистов в том чтобы обновить их до поддержки последних версий Python и сделать их нормально портируемых на последние версии Ubuntu, чтобы работали под Windows и тд. без плясок с бубном вокруг Python 3.5.
4. Визуализация и поиск по архивам каналов и чатов в Telegram.
Есть много чатов и телеграм каналов которые мы архивируем. Данные экспортируются в JSON формате. Нужен инструмент строящий веб интерфейс для поиска по архивированным чатам, файлам и тд. Сейчас ничего такого нет, а рано или поздно создавать такой интерфейс над копиями телеграм каналов потребуется.
#tools #archives #webarchives #helpneeded
Многие умеют программировать и хотят выступить волонтерами и помочь в архивации. Как можно это сделать? Какие задачи есть?
Задач много, не все удаётся описать сразу в виде готового ТЗ, но я постараюсь описать хотя бы кратко:
1. Агрегация из нестандартных источников (не веб).
Есть разные каналы обмена информацией, например, есть каналы в Viber, открытые чаты в WhatsApp и другие сервисы. Нужны инструменты дающие возможность данные скачивать. Сейчас ничего такого нет, весь этот контент за пределы этих экосистем не выходит. Возможно есть и другие источники важных знаний которые также надо сохранить.
2. Выгрузка данных из Instagram
Для инстаграм есть несколько инструментов выгрузки данных, но соцсеть сильно сопротивляется любым попыткам их получить. Даже самый актуальный сейчас инструмент instaloader не работает без авторизации и регулярно сталкивается с блокировками. Поэтому любые инструменты сбора данных из Instagram нужны. Лучше всего работающие с командной строки
3. Переделка текущих инструментов веб-архивации
Для веб архивации есть много инструментов. От самых простых таких как httrack и wget, до довольно сложных таких как Nutch и Heritrix. А есть несколько инструментов между ними по сложности такие как wpull и grab-site. Wpull - это переделанный wget с расширениями на Python, а grab-site - это надстройка над wpull'ом для динамического мониторинга архивации сайтов. У обоих проектов есть проблема - они не поддерживаются несколько лет, не работают, например, в Python выше 3.5 и родная операционка для них устаревшая Ubuntu 18.04. Соответственно нужна помощь очень опытных программистов в том чтобы обновить их до поддержки последних версий Python и сделать их нормально портируемых на последние версии Ubuntu, чтобы работали под Windows и тд. без плясок с бубном вокруг Python 3.5.
4. Визуализация и поиск по архивам каналов и чатов в Telegram.
Есть много чатов и телеграм каналов которые мы архивируем. Данные экспортируются в JSON формате. Нужен инструмент строящий веб интерфейс для поиска по архивированным чатам, файлам и тд. Сейчас ничего такого нет, а рано или поздно создавать такой интерфейс над копиями телеграм каналов потребуется.
#tools #archives #webarchives #helpneeded
instaloader.github.io
Instaloader — Download Instagram Photos and Metadata
Free command line tool to download photos from Instagram. Scrapes public and private profiles, hashtags, stories, feeds, saved media, and their metadata, comments and captions. Written in Python.
Новости проекта на 23 марта 2022 года
- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.
Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.
#digest #archives #webarchival #digitalpreservation
- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.
Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.
#digest #archives #webarchival #digitalpreservation
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто интересуется цифровой архивацией, поделюсь презентацией на эту тему с которой я в разных вариациях выступал в прошлом году [1]
Там есть ответы на многие вопросы о том какие инструменты существуют, для чего они нужны, что такое формат файлов WARC, как работают веб-архивы и многое другое.
Ссылки:
[1] https://www.beautiful.ai/player/-MyrA7JYDeVnxU1lqQlA
#webarchives #digitalpreservation #archives
Там есть ответы на многие вопросы о том какие инструменты существуют, для чего они нужны, что такое формат файлов WARC, как работают веб-архивы и многое другое.
Ссылки:
[1] https://www.beautiful.ai/player/-MyrA7JYDeVnxU1lqQlA
#webarchives #digitalpreservation #archives
Beautiful.ai
Организация веб-архивов
Get started with Beautiful.ai today.
Forwarded from Александр Март
Если вы владете JavaScript или SvelteKit, вы можете помощь проекту Национального цифрового архива, который спасает всё то, что сейчас закрывается.
В связи с архивацией Телеграм каналов, чатов, возникла задача:
4. Визуализация и поиск по JSON-архивам каналов и чатов в Telegram.
Оригинал задачи: https://yangx.top/ruarxive/22
Позволил себе запилить небольшой PoC
Сделано на SvelteKit, используя ES6 (Vanilla JS) с простым входом даже для не-фронтендеров.
👉 https://github.com/roboteam-digital/telegram-json-ui
Demo:
https://telegram-json-ui.netlify.app
Если есть желание помочь, пожалуйста, дополните список минимально необходимых фич, чтобы проект был востребован:
https://github.com/roboteam-digital/telegram-json-ui#todo
💎 Для тех кто задаётся вопросом «Зачем это всё?», ответ тут:
https://yangx.top/ruarxive/5
TL;DR: В связи с последними событиями, ресурсы массово закрываются, поэтому АНО Инфокультура в ускоренном порядке архивирует сейчас всё что ещё можно спасти.
В т.ч. общественно-важные Телеграм-каналы.
В связи с архивацией Телеграм каналов, чатов, возникла задача:
4. Визуализация и поиск по JSON-архивам каналов и чатов в Telegram.
Оригинал задачи: https://yangx.top/ruarxive/22
Позволил себе запилить небольшой PoC
Сделано на SvelteKit, используя ES6 (Vanilla JS) с простым входом даже для не-фронтендеров.
👉 https://github.com/roboteam-digital/telegram-json-ui
Demo:
https://telegram-json-ui.netlify.app
Если есть желание помочь, пожалуйста, дополните список минимально необходимых фич, чтобы проект был востребован:
https://github.com/roboteam-digital/telegram-json-ui#todo
💎 Для тех кто задаётся вопросом «Зачем это всё?», ответ тут:
https://yangx.top/ruarxive/5
TL;DR: В связи с последними событиями, ресурсы массово закрываются, поэтому АНО Инфокультура в ускоренном порядке архивирует сейчас всё что ещё можно спасти.
В т.ч. общественно-важные Телеграм-каналы.
Начата архивация
Издания:
- Частный корреспондент (chaskor.ru) - основание, кратковременная недоступность. Возможное исчезновение
- Троицкий вариант (trv-science.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
НКО и их проекты
- Друзья Балтики (baltfriends.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
- КАФ Россия (cafrussia.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
- Благо.ру (blago.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
- Журнал Филантроп (philantropy.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
- Проект Щедрый вторник (givingthursday.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
Также идёт поиск и архивация социальных сетей и телеграм каналов данных организаций и проектов.
Если Вы знаете другие цифровые ресурсы связанные с этими организациями, напишите нам в чате @ruarxivechat или заполните форму https://airtable.com/shriiNZvNhcgaStm6
#digitalpreservation #archives #webarchives
Издания:
- Частный корреспондент (chaskor.ru) - основание, кратковременная недоступность. Возможное исчезновение
- Троицкий вариант (trv-science.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
НКО и их проекты
- Друзья Балтики (baltfriends.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
- КАФ Россия (cafrussia.ru) - основание: внесение в реестр инагентов, высокая вероятность прекращения деятельности
- Благо.ру (blago.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
- Журнал Филантроп (philantropy.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
- Проект Щедрый вторник (givingthursday.ru) - проект КАФ Россия, основание: внесение владельца в реестр инагентов, высокая вероятность прекращения деятельности
Также идёт поиск и архивация социальных сетей и телеграм каналов данных организаций и проектов.
Если Вы знаете другие цифровые ресурсы связанные с этими организациями, напишите нам в чате @ruarxivechat или заполните форму https://airtable.com/shriiNZvNhcgaStm6
#digitalpreservation #archives #webarchives
Airtable
Airtable | Everyone's app platform
Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.
Закончена архивация Instagram аккаунтов официальных лиц и политиков РФ. Сохранён 171 аккаунт. Код архивации и список инстаграм аккаунтов выложены в репозитории на Github [1], а итоговые данные собраны в архиве в 1.4GB [2]
Успешно были заархивированы все сообщения и метаданные, но лишь ограниченно изображения и видео. Если у Вас есть время и возможно Вы можете помочь с архивацией сохранив все или выделенные аккаунты вместе с изображением. Для архивации использовался инструмент instaloader.
Также пишите если Вы знаете аккаунты не вошедшие в список заархивированных.
Этот архив полезен ещё и тем кто может захотеть сделать над ним UI для навигации по архивам Instagram, по аналогии с UI для архивов Telegram каналов. Здесь также нужна помощь волонтеров-разработчиков.
P.S. За помощь в сборе списка аккаунтов спасибо коллегам из Трансперенси.
Ссылки:
[1] https://github.com/ruarxive/rugovinstagrams
[2] https://cdn.ruarxive.org/public/webcollect2022/govinst2022/_govinstagrams_20220325.zip
[3] https://github.com/ruarxive/rugovinstagrams/blob/main/instagram.csv
#instagram #government #archives #socialnetworks
Успешно были заархивированы все сообщения и метаданные, но лишь ограниченно изображения и видео. Если у Вас есть время и возможно Вы можете помочь с архивацией сохранив все или выделенные аккаунты вместе с изображением. Для архивации использовался инструмент instaloader.
Также пишите если Вы знаете аккаунты не вошедшие в список заархивированных.
Этот архив полезен ещё и тем кто может захотеть сделать над ним UI для навигации по архивам Instagram, по аналогии с UI для архивов Telegram каналов. Здесь также нужна помощь волонтеров-разработчиков.
P.S. За помощь в сборе списка аккаунтов спасибо коллегам из Трансперенси.
Ссылки:
[1] https://github.com/ruarxive/rugovinstagrams
[2] https://cdn.ruarxive.org/public/webcollect2022/govinst2022/_govinstagrams_20220325.zip
[3] https://github.com/ruarxive/rugovinstagrams/blob/main/instagram.csv
#instagram #government #archives #socialnetworks
Telegram
Трансперенси
Группа независимых зарубежных экспертов, продолжающих работу ликвидированного российского юридического лица «Трансперенси Интернешнл – Россия». Связаться с нами: [email protected]
Наш сайт: ti-russia.org
Наш Facebook: facebook.com/tirussia
Наш сайт: ti-russia.org
Наш Facebook: facebook.com/tirussia
Начата параллельная загрузка медиа архива Эха Москвы в Интернет архив, список загруженных аудиозаписей можно посмотреть в аккаунте ruarxive [1], параллельно идет загрузка в облачное хранилище, загружено 11 тысяч файлов, остальные в процессе загрузки. В файле archived_list.zip приложены ссылки на файлы уже загруженные и те что ещё загружаются. Ссылки могут работать не все пока, но скоро будут.
Для описания всего сохраненного нехватает разметки файлов по программам. Сейчас коды программ извлекались из имён файлов и могут иметь названия такие как 12tango, albac, almamater и другие. Нужна помощь в их разметке и указанием названия на русском языке. Полный список кодов программ в приложенном файле programlist.csv
Без названия на русском и на английском языке не получается хорошо заполнить метаданные в интернет архиве.
Ссылки:
[1] https://archive.org/details/@ruarxive
#echomskru #echoofmoscow #archives #media #internetarchive
Для описания всего сохраненного нехватает разметки файлов по программам. Сейчас коды программ извлекались из имён файлов и могут иметь названия такие как 12tango, albac, almamater и другие. Нужна помощь в их разметке и указанием названия на русском языке. Полный список кодов программ в приложенном файле programlist.csv
Без названия на русском и на английском языке не получается хорошо заполнить метаданные в интернет архиве.
Ссылки:
[1] https://archive.org/details/@ruarxive
#echomskru #echoofmoscow #archives #media #internetarchive