Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.71K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
September 12, 2022
October 19, 2022
April 14, 2023
Сегодня интернет-архив Archive.org был недоступен в течение часа, о чём написал его основатель Brewster Kahle в блоге архива [1] о том что на сайт архива обрушилось более 10 тысяч запросов в секунду для доступа к архиву оцифрованных книг. В итоге техническая команда архива заблокировала около 64 адресов с которых сыпались такие запросы. В твиттере архива есть подробности [2] и скорее всего эту нагрузку создавала одна из компаний создающих продукты на базе ИИ. После этого сложно говорить что разработка ИИ не наносит вреда;) как минимум косвенного.

Сейчас интернет-архив работает стабильно, хочется надеяться что они смогут лучше противодействовать в будущем таким хищническим нагрузкам со стороны ИИ стартапов.

Ссылки:
[1] https://blog.archive.org/2023/05/29/let-us-serve-you-but-dont-bring-us-down/
[2] https://twitter.com/internetarchive/status/1662999547138945030

#ai #archives #internetarchive #outage
May 29, 2023
June 6, 2023
December 8, 2023
December 15, 2023
Google выключают доступ к кешированным страницам [1] которые ранее были доступны в их поиске, теперь эти страницы будут доступны только через Google Webmaster для владельцев сайтов [2]. Кеш Google активно использовался для восстановления недавно исчезнувших сайтов и просмотра удалённых веб страниц.

Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.

Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].

Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org

#archives #webarchive #google
February 6, 2024
February 14, 2024
March 29, 2024
May 15, 2024
Для всех кто искал архив статей Большой Российской энциклопедии доступны два архива в рамках идущей архивной кампании
- bigenc.ru[1], архив статей основного сайта в 7GB в сжатом виде в ZIP архиве
- old.bigenc.ru [2], архив статей старой версии сайта в 1GB в сжатом виде в ZIP архиве

Эти архивы размещаются не как воспроизведение, а для задач связанных с общественным интересом к материалам БРЭ.

Продолжается архивация статей и медиа материалов в формате WARC, размеры этого архива будут значительно больше и включать практически все общедоступные материалы материалы.

Ссылки:
[1] https://hubofdata.ru/dataset/bigenc-filedump
[2] https://hubofdata.ru/dataset/oldbigenc-filedump

#opendata #webarchives #archives #bigenc
June 28, 2024
Группа крупных лэйблов хотят засудить [1] интернет-архив Archive.org за оцифровку старых аудиозаписей. Казалось бы что такого, но сумма иска составляет $621 миллион и, если он реализуется, то интернет архив просто исчезнет.

Хочется надеяться что Интернет архив от иска отобьётся потому что альтернатив ему нет. Это уникальный проект, при этом сильно недофинансированный.

Ссылки:
[1] https://www.rollingstone.com/music/music-features/internet-archive-major-label-music-lawsuit-1235105273/

#digitalpreservation #archives
October 8, 2024
January 27