Специально для тех кто задается вопросом о том зачем нужна архивация сайтов - я готов дать ответ на этот вопрос. Проект 'Карта науки', который я упоминал ранее, пропал из сети, но я успел снять его копию в апреле 2015 года.
Копия сайта расположена по ссылке - http://cdn2.sdlabs.ru/preservation/webcollect/education/mapofscience.org/
Будьте осторожны, архивированный WARC файл из 44 мегабайт распаковывается в 5 гигабайт.
Ответы на вопросы как работать с WARC файлами тут:
- http://superuser.com/questions/628350/extract-files-from-a-web-archive-warc
- http://qanda.digipres.org/610/how-to-open-warc-files
- https://warc.readthedocs.io/en/latest/
Для тех кто задается вопросом "Зачем все это нужно если есть Интернет Архив (archive.org) ?" есть ответ.
Интернет-архив собирает только страницы и только тех сайтов которые его не блокируют на уровне robots.txt. А mapofscience.org его блокировал в Интернет архиве есть только снимки его главной страницы. Последний был 30 декабря 2016 года - http://web.archive.org/web/20161230051532/https://www.mapofscience.org/ , после чего сайт исчез
#digitalpreservation #notsoopenscience
Копия сайта расположена по ссылке - http://cdn2.sdlabs.ru/preservation/webcollect/education/mapofscience.org/
Будьте осторожны, архивированный WARC файл из 44 мегабайт распаковывается в 5 гигабайт.
Ответы на вопросы как работать с WARC файлами тут:
- http://superuser.com/questions/628350/extract-files-from-a-web-archive-warc
- http://qanda.digipres.org/610/how-to-open-warc-files
- https://warc.readthedocs.io/en/latest/
Для тех кто задается вопросом "Зачем все это нужно если есть Интернет Архив (archive.org) ?" есть ответ.
Интернет-архив собирает только страницы и только тех сайтов которые его не блокируют на уровне robots.txt. А mapofscience.org его блокировал в Интернет архиве есть только снимки его главной страницы. Последний был 30 декабря 2016 года - http://web.archive.org/web/20161230051532/https://www.mapofscience.org/ , после чего сайт исчез
#digitalpreservation #notsoopenscience
Super User
Extract files from a web archive (.warc)
I have a number of web sites I am archiving in order to retain many of the linked files there, specifically a number of PDFs.
I haven't had a problem using the Heritrix crawler to collect the sit...
I haven't had a problem using the Heritrix crawler to collect the sit...