Системный Блокъ
10.8K subscribers
241 photos
2 videos
1 file
874 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
加入频道
Стимул, правда, дурачок: визуализация текстов Гражданской Обороны
Вспоминаем творчество Егора Летова к 14-летию со дня его смерти

Даже если вы не знакомы с его песнями, в вашей жизни точно была компания, назойливо распевающая «Все идет по плану». А если нет, то всегда любопытно взглянуть, как менялось творчество популярной рок-группы на разломе российской государственности.

В нашем материале мы проанализировали около 200 текстов, автором которых был Егор Летов.

https://sysblok.ru/visual/novyj-mertvyj-horoshij-vizualizacija-tekstov-grazhdanskoj-oborony/
Пушкинский дом обновил корпус нарративной прозы XIX века
С ноября 2021 года пользователям доступна улучшенная версия датасета.

Составители корпуса из Лаборатории цифровых исследований литературы и фольклора ИРЛИ РАН унифицировали имена файлов, промаркировали конец каждого абзаца, привели тексты в соответствие с новой орфографией и внесли другие изменения.

Корпус нарративной прозы XIX века опубликован в декабре 2020 года в Репозитории открытых данных по русской литературе и фольклору. В датасет вошли романы и повести 1830—1900 годов, причем не только классические, но и малоизвестные в наши дни. Там же доступны метаданные: годы жизни и псевдонимы авторов произведений, сведения о первых публикациях и библиографическая информация о печатных изданиях, с которых были сделаны цифровые копии.

В репозитории можно найти не только «Корпус нарративной прозы XIX века», но и другие датасеты, например «Корпус “русской песни” 1800—1840-х гг.», «Корпус русской прозы для детей и юношества» или базу данных «Стилеметрические данные “Тихого Дона” и современной ему прозы».

Автор: Екатерина Горбатова
Что остается за кадром оцифрованной культуры?
Зачем нужна оцифровка музейных экспонатов, где посмотреть идеальную цифровую коллекцию и как решают вопрос толерантности в онлайн-музеях Европы

Научный сотрудник лаборатории «Digital Humanities» Инна Кижнер рассказала «Системному Блоку» о нюансах оцифровки и хитросплетениях культурных смыслов в цифровой среде.

Оказалось, что цифровые коллекции вроде Google Arts&Culture подвержены искажениям из-за того, что алгоритмы выбирают коллекции по принципу «где больше». К примеру, если NASA отправило в Google Arts&Culture около 160 тысяч изображений, а учреждения культуры Казахстана — меньше, то при поисковом запросе «Казахстан» мы увидим фотографии со встречи советских или российских космонавтов и американских астронавтов на Байконуре.

Оцифровка музейных объектов начинается с учета. Российские музеи обязаны оцифровать свои коллекции до 2026 года, но нехватка компетентных людей и техники снижает качество изображений и метаданных. В отличие от лаконичного российского Госкаталога, коллекция Metropolitan Museum of Art в Нью-Йорке содержит много изображений в хорошем качестве, четкие фильтры, а главное — текстовые описания, привязывающие объект к географии, времени и выставкам.

Смысл оцифрованных коллекций не только том, чтобы увидеть на экране музей, который мы не можем посетить. Оцифровка делает доступными контексты и создает иной уровень погружения в культуру. Например, человек может увидеть картинку и задаться вопросами: «Вот кружево, вот прическа, вот поза — а насколько давние эти явления? Когда и где они вошли в моду?»

Но даже если учреждения культуры стремятся создать удобные и быстрые цифровые коллекции, то бюрократическая система, неравные финансовые возможности и культурные традиции могут этому препятствовать. В этом смысле юг Европы менее открыт, чем север. Сказывается и региональное неравенство в рамках страны: например, в России в сфере оцифровки и онлайн-публикаций для библиотек лидируют Москва и Санкт-Петербург, хотя по количеству публикаций на собственных сайтах музеев северная столица уступает Дальнему Востоку.

https://sysblok.ru/interviews/kultura-v-cifrovom-site-chto-ostaetsja-za-kadrom/
Вышел интерактивный учебник по Python для гуманитарных исследований
Теперь его можно читать онлайн — вместе с графиками, кодом и ссылками на источники и датасеты.

В январе 2021 года Принстонский университет издал первое полное пособие по использованию Python в гуманитарных науках — «Humanities Data Analysis: Case Studies with Python». В отличие от привычных научных монографий, книга содержит подробный разбор кейсов и дает доступ к коду и датасетам — так что читатель сможет воспроизвести исследование.

Первая часть книги описывает основы: базовые понятия Python, парсинг (сбор и анализ) файлов разных форматов, обработку таблиц, векторизацию текстов и построение социальных сетей. Второй раздел рассказывает о методах статистического и стилометрического анализа, тематическом моделировании и методе построения исторических карт. Главы оканчиваются заданиями для самостоятельного выполнения.

Описанные в книге методы и инструменты задействуют в разных исследованиях: от изучения читательской аудитории и установления авторства прозы XII века до анализа кулинарных книг и судебных решений. Кейсами можно вдохновляться, а код — использовать для своих задач.

Источник: https://www.humanitiesdataanalysis.org/index.html

Автор: Руслан Родионов
Культура сильнее войны
Делимся цифровой коллекцией гравюр Одесской национальной научной библиотеки.

Третий день продолжается война с Украиной. Редакция «Системного Блока» с болью наблюдает за происходящим. Мы выступаем за немедленное прекращение боевых действий и осуждаем агрессию в любой форме. В знак солидарности мы публикуем цифровую коллекцию собрания гравюр из Одесской национальной научной библиотеки.

«Старинная гравюра – культурное наследие Украины» (Старовинна гравюра — культурна спадщина України) – проект по оцифровке более 600 украинских и зарубежных гравюр XVI-XX вв., произведенный Одесской национальной научной библиотекой при поддержке Украинского культурного фонда. В коллекции представлены экземпляры, выполненные в различных техниках гравюры — офорт, меццо-тинто, резцовая гравюра, литография.

Важная часть коллекции — оригинальные экземпляры с видами старой Одессы. Именно эти гравюры мы публикуем сегодня, чтобы продемонстрировать неповторимую красоту одного из многих живописных городов Украины.
Как плести виртуальные сети с помощью Gephi
Показываем, как пользоваться программой и кто самый болтливый герой Гоголевского «Ревизора»

Сетевой анализ на основе теории графов придумали для изучения сообществ. Но визуализация сетей оказалась хорошим способом наглядно представить любые данные, в которых много связей.

Gephi — это известный инструмент для сетевого анализа и визуализации информации. С его помощью можно визуализировать глобальные взаимосвязи контента New York Times, изучить сетевой трафик Twitter во время социальных волнений или исследовать отношения героев «Войны и мира».

Мы написали для вас максимально простую инструкцию о том, как пользоваться Gephi и в качестве учебного примера визуализировали комедию Н. В. Гоголя «Ревизор». Спойлер: оказалось, что среди Гоголевских персонажей мужского пола больше всех говорил Городничий, а из женских – Анна Андреевна, его жена. Но это далеко не все, что можно узнать.

Тьюториал объясняет:
• Что такое сетевой анализ?
• Какие данные нужны для анализа и где их достать?
• Как построить граф?
• Как добавить графу ясности и наглядности?

А для тех, кто уже в теме, недавно вышел материал о том, как сделать визуализацию нескучной — например, заменить узлы на эмодзи.
Сегодня 8 марта — международный женский день.

Он задумывался как праздник гендерного равноправия, но быстро превратился в «женский праздник» с полным набором гендерных стереотипов. И эти стереотипы можно изучать цифровыми методами.

Сегодня вспоминаем один из наших «золотых материалов» — исследование корпуса поздравлений с 8 марта.

Оказалось, что:
• Жители Москвы, Питера, Ингушетии и Чечни ищут тексты для поздравлений реже остальных.
• Женщинам желают красоты и нежности чаще, чем ума и успешности.
• Глядя на популярные поздравительные тексты, цепь Маркова сгенерировала пожелание: «Чтоб исполнялись мечты: муж готовит обед».

https://sysblok.ru/society/smejtes-i-detej-rozhajte-iz-chego-sdelany-pozdravlenija-s-8-marta/
Ученые спасают украинское культурное наследие и сетевые архивы
Исследователи по всему миру запустили инициативу по сохранению украинского культурного наследия в цифровой форме.

Профессиональные интернет-архивисты, цифровые библиотекари и программисты запустили проект Saving Ukrainian Cultural Heritage Online (SUCHO). Участники проекта находят и архивируют украинские электронные библиотеки, корпуса текстов, цифровые коллекции искусства и сайты музеев.

Работа ведется над цифровыми ресурсами из Харькова, Мариуполя, Чернигова и других городов, которым угрожает опасность. Параллельно при SUCHO идет работа и над сохранением российских цифровых ресурсов — на случай усиления блокировок и закрытия проектов.

«Системный Блокъ» поговорил с одной из создательниц проекта Куинн Домбровски из Стэнфордского университета. Вот что она рассказала:
— За первую неделю к проекту присоединились около 1000 человек
— Прямо сейчас активно работают 100-150 добровольцев
— Участники проекта общаются через Slack, где созданы каналы под каждый тип задачи (автоматический краулинг сайтов, взаимодействие с интернет-архивом, ручной сбор данных с сайтов, не поддающихся автоматизированной обкачке и др.)

В проекте есть разные задачи, знание украинского языка не обязательно. Официальный сайт проекта с инструкциями и формами для волонтеров: https://www.sucho.org/

Кстати, украинское культурное наследие сохраняют и другие цифровые инициативы — например, веб-архив Eastern Europe and Former Soviet Union, созданный конфедерацией библиотек Ivy Plus или портал European Holocaust Research Infrastructure (EHRI).
Как работают диалоговые системы
Разбираемся, как работают диалоговые системы и почему одни могут рассказать анекдот и поддержать диалог о жизни, а другие — сводить в кино и заказать пиццу.

Диалоговая система — это система, созданная для общения с пользователем в естественном для него виде: в виде диалога. Их придумали, чтобы упростить взаимодействие людей с компаниями и сервисами. Например, спросить у умной колонки прогноз погоды быстрее, чем искать телефон, открывать браузер и печатать запрос.

Не каждый «автоответчик» можно считать диалоговой системой. Например, чат-боты в мессенджерах, которые просят ввести число или слово в определенной форме — не диалоговые системы. Их диалоги регулируются обычным алгоритмом: от пользователя ожидаются однозначные ответы, и следующий шаг включается только если ответ совпал с одним из ожидаемых. Никакого машинного обучения.

Настоящие диалоговые системы различаются задачами. Первая группа систем — голосовые или виртуальные помощники, которые помогают решить проблему. Их диалог с пользователем раскладывается на ограниченный набор подшагов, проходя которые мы заполняем «поля анкеты» для совершения действия. Например, чтобы заказать пиццу, нужно указать вид пиццы, ее размер и адрес для доставки.

Интеллект таких систем способен понять, что хочет пользователь без однозначного совпадения ответа, а если в вашей фразе не хватает нужных фактов — система уточнит непонятное.

Вторая группа — «болталки» или системы с открытым доменом. Они сделаны для поддержания диалога на свободную тему и смогут пошутить или рассказать историю. Есть разные подходы к решению задачи по ведению диалога — разработчики могут заранее заготовить ответы, настроить автоматический поиск по базам знаний или подключить генеративные нейросети, обученные на диалогах.

Самые известные современные диалоговые системы совмещают в себе и разговорные, и «задачные» способности. Например, Алиса научилась включать свет в квартире, а банковские голосовые ассистенты Салют могут рассказать сказку на ночь.

https://sysblok.ru/nlp/kak-rabotajut-dialogovye-sistemy-i-chem-oni-otlichajutsja/
Люди меняются, а сахар остается
«Впереди сущий сахарный голод» — писали в дневниках очевидцы 1917 года.

Дневники и письма — одни из наиболее эмоциональных исторических источников. Они помогают увидеть живых людей за перечислением дат и событий.

Что волновало свидетелей революции и Первой Мировой?
• Авторы дневников писали о революции, войне и культуре, а ещё — про экзистенциальные вопросы.
• В дневниках часто встречаются слова «хлеб», «рубль», «мука», «комната», «купить», «цена».
• Бедность и проблемы с продовольствием — единственная тема, которая регулярно всплывает с октября 1916 года по январь 1918-го.
Как не сойти с ума в условиях неопределенности
«Системный Блокъ» попросил психологов ответить на вопросы, которые волнуют нас сегодня.

Как в условиях неопределенности сохранить способность мыслить? Как поддерживать себя и близких? Как реагировать на острые ситуации? Что делать с планами, которые были — а вот их уже и нет? На вопросы отвечают клинический психолог, психоаналитик и гештальт-терапевт.

📢 О главном:
1. Следите за повседневными делами. Вовремя вставать, застилать постель, чистить зубы, питаться три раза в день сейчас важнее, чем обычно. Особенно важна физическая активность — так вы возвращаете себе опору.
2. Поддерживайте близких, но не переоценивайте свои эмоциональные силы и не забывайте сами обращаться за поддержкой и помощью.
3. В разговоре с тем, кто находится в зоне боевых действий, сфокусируйтесь на личном, а не на глобальном — чтобы ваш собеседник понял, что вы о нем беспокоитесь. Спросите у близкого человека, в какой поддержке он сейчас нуждается.
4. Не пытайтесь «причинить добро» и навязать другому свою позицию. Помните, что каждый человек имеет право и на свое мнение, и на свои заблуждения.
5. Вас могут обвинять и изливать агрессию, но не пускайте это внутрь себя. Россияне такие же пострадавшие мирные жители, как и другие.
6. Сегодня важно не столько планировать будущее, сколько готовиться к нему. Вам точно точно понадобятся силы и энергия, поэтому лучше уделить внимание тому, на что эти силы расходуются и как пополняются.

https://sysblok.ru/society/neizvestnoe-budushhee-kak-ne-sojti-s-uma-v-uslovijah-neopredelennosti/
Мумификация русских медиа: как специалисты по веб-архивам спасают историю уничтоженных СМИ

С конца февраля в России заблокировали более 50 независимых СМИ: от телеканала «Дождь» до научной газеты «Троицкий вариант». Многие редакции после этого приостановили работу, некоторым пришлось сразу же удалить свои сайты и аккаунты в соцсетях. Например, ни сайта, ни каналов «Эха Москвы» вы уже не найдете даже из-под VPN. Сайты многих других медиа через какое-то время тихо закроются — им просто нечем и незачем будет платить за хостинг.

Но все это не означает полного исчезновения информации из общего доступа. Весь последний месяц специалисты по веб-архивации создают архивы «Эха Москвы», «Дождя», «The Bell», «Вондерзина» и других СМИ, павших жертвами спецоперации. Их архивы останутся для истории — и, возможно, когда-нибудь они помогут ответить на вопрос о том, как мы оказались там, где оказались.

Кто архивирует?

Сохранением контента заблокированных СМИ сейчас занимается «Национальный цифровой архив» — проект автономной НКО «Инфокультура» Ивана Бегтина. «Инфокультура» не первый год борется за открытость и доступность государственных и общественных данных в РФ. Ранее «Национальный цифровой архив» собирал архивы сайтов и социальных сетей госструктур, ведомств и отдельных чиновников, сайты предвыборных кампаний кандидатов в президенты 2018 года. Они занимались дополнительной архивацией данных ликвидированного «Мемориала». Теперь проект переключился на сохранение контента заблокированных медиа.

Что архивируют?

Среди собранных данных — архивы «Новой газеты», The New Times, «Эхо Москвы» (включая архивы записей на сотни гигабайт), газеты «Бумага», изданий The Insider и Colta. Все они в последние недели либо были заблокированы, либо получали предупреждения от Роскомнадзора. «Эхо Москвы» после блокировки удалило сайт, YouTube канал и аккаунты в соцсетях.

Уже архивированные медиа и ближайшие планы можно посмотреть в таблице. Кроме сайтов архивируются телеграм-каналов и страницы медиа в социальных сетях, группы ВКонтакте и целые Youtube каналы с видеоархивами.

Как архивируют?

Часть файлов сохраняют в специальном формате для веб-архивации WARC. Их можно открыть с помощью программы ReplayWeb.page в оффлайн режиме. Остальные архивы, среди которых, например, коллекция mp3-записей передачи «Цена победы» на «Эхе», можно открыть любым архиватором, который работает с ZIP и GZ файлами.

Инструменты веб-архивации

Сайты обкачивают веб-краулеры, например, grab-site и Heritrix, а обрабатывают их при помощи библиотек для Python и Java, предназначенных для работы с форматом WARC. Для других платформ, социальных сетей и мессенджеров инструментарий отличается. Так, группу «Эха Москвы» ВКонтакте волонтеры проекта выгружали при помощи API VK, а телеграм-канал «Новой газеты» заархивировали при помощи функции «export chat history», которая доступна в десктопном приложении.

Чем можно помочь?

Архив ищет волонтеров-разработчиков, которые готовы отслеживать сайты, находящиеся «в группе риска», а также помогать в их сохранении, разработке и актуализации инструментов для архивации.
Если вы знаете цифровые проекты и ресурсы, которые могут исчезнуть в ближайшее время, но не нашли их в планах проекта, можно написать об этом в чат телеграм-канала Архива или предложить цифровой ресурс для архивации через специальную форму.