Системный Блокъ

Коллективная память в эпоху её технической воспроизводимости
#digitalmemory

Memory studies — это междисциплинарное направление в гуманитарном знании. Объект его изучения — коллективная память, то есть коллективные представления людей об их истории и культуре и общие воспоминания, консолидирующие социальные группы.

Цифровые средства предоставляют людям новые возможности: публично показывать не только свою личную скорбь, но и скорбь по трагедиям, которые произошли далеко и не коснулись никого из близких.

Самый популярный способ выразить соболезнования и показать свою сопричастность к общему горю — фотография свечи. Её могут выставить в отдельном посте, временно поставить в качестве аватара или обложки на личной странице.

Однако этот способ выражения скорби часто критикуется. Так, президент Украины Владимир Зеленский поставил свечу на обложку своей страницы в Facebook после крушения Boeing-737 «Международных авиалиний Украины» под Тегераном 8 января 2020 года, когда погибло 176 человек. В ответ на это пользователи соцсети высказались о неуместности фотографии с улыбкой в таком контексте, и вскоре Зеленский заменил аватар на другой, где у него более серьёзное выражение лица. Также, при просмотре с телефона, свеча как будто вырастает прямо из головы человека, что не способствует поддержанию скорбного настроения.

Дизайнера Данилу No Name свечи в Интернете раздражают уже давно. Ещё в ноябре 2018 г. он выпустили лендинг под названием «Траур BUNDLE (4K) SMM pack», где «продаёт» наборы для скорби: изображения свечей различного размера и цвета в хорошем качестве для постов и аватарок. Скриншот прикреплен ниже.

О том, какие еще есть способы публично выразить свою скорбь и почему коммеморация в сети — это не всегда про скорбь и смерть, рассказываем в нашей статье: https://sysblok.ru/society/kollektivnaja-pamjat-v-jepohu-ejo-tehnicheskoj-vosproizvodimosti/

2.1K viewsedited 16:35

Системный Блокъ

Внимание — все, что вам нужно: как работает attention в нейросетях
#knowhow

Мы продолжаем серию постов об устройстве нейронных сетей. В прошлом материале «Системный Блокъ» рассказывал о том, зачем нужны рекуррентные нейросети (RNN), что такое рекуррентность и как добавить нейросети долгосрочной памяти.

Сегодня рассказываем о механизме внимания, на котором работают в 2020 году все действительно крутые нейросети. Почему внимание стало killer-фичей диплернинга, что под капотом у attention mechanism, как нейросеть понимает, какие признаки текста или картинки важнее других.

У применения RNN в области обработки и понимания естественного языка есть три основные проблемы:
1. RNN работает медленно и недостаточно эффективно;
2. RNN учитывает только прошлый контекст, а не все предложение;
3. в RNN контекст со временем размывается.

Чтобы решить вторую проблему, используют двунаправленную RNN. Она обрабатывает предложение один раз слева направо, другой раз — справа налево, и только потом начинает предсказывать.

А механизм внимания решает третью проблему. Его цель — заставить нейросеть сильнее сосредоточиться на важном слове в дальнем конце предложения. Контекст — это сумма векторов всех слов в предложении. «Подсветить» важное слово в контексте — значит умножить его вектор на большое число («вес внимания»). Чтобы понять, какое слово сейчас важно, потребуется еще одна нейросеть (внутри нейросети).

О чем рассказываем в статье:

— Какие бывают типы рекуррентных архитектур
— Чем хороша архитектура «энкодер — декодер» для машинного перевода
— Как работает двунаправленная RNN
— В чем заключается идея механизма внимания
— Как сделан механизм внимания в энкодере
— Как сделан механизм внимания в декодере
— Как получить вес внимания и понять, что на самом деле важно «запомнить»
— Как работает функция активации Softmax

https://sysblok.ru/knowhow/vnimanie-vse-chto-vam-nuzhno-kak-rabotaet-attention-v-nejrosetjah/

2.3K viewsedited 12:50

Системный Блокъ

Как измерить городскую культуру
#urban

В 1980-х годах французский социолог Пьер Бурдье предложил теорию, согласно которой успех человека определяется соотношением его экономического и культурного капитала — два измерения социального пространства, схематично изображенного на рисунке ниже.

Исследовательская компания GoodCityLife решила проверить эту теорию на уровне городских районов, то есть выяснить, в какой степени успешность городского развития определяется не только экономическими, но и культурными факторами. Но как можно измерить такую нематериальную вещь как культура?

Мы уже писали об одном из проектов этой компании, суть которого состояла в создании карты запахов города на основе фотографий из социальных сетей. Здесь похожий принцип: берём несколько миллионов фотографий из Flickr с геопривязкой к одному из районов Лондона или Нью-Йорка и анализируем теги.

Культурный капитал

Общее количество фотографий с культурными тегами позволяет определить значение культурного капитала. Исследователи визуализировали районы Лондона и Нью-Йорка на графиках, аналогичных социальному пространству Бурдье, а также на интерактивных картах, и решили выяснить, какая из девяти основных категорий культурного капитала преобладает в данном конкретном районе.

Оказалось, что в обоих городах категория «перформанс» преобладает в центральных районах, тогда как многие периферийные районы выделяются категорией «архитектура», видимо, потому что другие виды культурной специализации развиты слабо.

Любопытно, как четко разграничиваются западная и восточная части Внутреннего Лондона: богатый и респектабельный Вест-энд со своими торгово-развлекательными кварталами и туристическими достопримечательностями отличается преобладанием «перформанс» (там же расположены крупнейшие театры), тогда как для индустриального Ист-энд более характерен дизайн.

Также в статье рассказываем, насколько культурные показатели коррелируют с успешностью района, и показываем графики: https://sysblok.ru/urban/kak-izmerit-gorodskuju-kulturu/

2.4K views11:45

Системный Блокъ

Русский рэп через тематическое моделирование: о чем читает русскоговорящая хип-хоп сцена
#arts

«Русский рэпер» — словосочетание, ставшее если не ругательным, то как минимум пренебрежительным. Оно связано с целым букетом стереотипов. Представьте себе русского рэпера. Что вы видите? Человека в спортивках, окруженного «своими пацанами», или, может, парня с золотыми грилзами перед его новенькой машиной? Долой стереотипы! Время разобраться с тем, кто такие русские рэперы, и о чем они читают на самом деле.

Рэп как жанр зародился в 1970-ых годах в Южном Бронксе (район в Нью-Йорке). Первые рэперы — представители бедного чернокожего населения, поднимавшие в своем творчестве проблемы убийств, нищеты, употребления наркотиков. С тех пор рэп сильно изменился — из маленькой культуры бедного района Нью-Йорка он вырос в популярный жанр, приобретая в каждой стране свои особенности.

В Россию рэп пришел в конце 1980-ых и на заре своего существования многое заимствовал с западных образцов. Позже он обрел относительную самостоятельность как жанр, создавая свой стиль как в музыке, так и в смысловой нагрузке текстов.

В 2017 году рэпу удалось обойти по прослушиваниям рок, который больше 50 лет держал первенство музыкального олимпа, и стать самым популярным жанром музыки в мире. Рэп, будучи настолько популярным, может влиять на то, как сотни тысяч людей мыслят и каких ценностей придерживаются. Значит, важно разобраться, о чем он говорит.

Как мы изучали рэп

Перед анализом и извлечением транслируемых идей нам предстояло собрать данные. Для исследования мы взяли два сайта: ныне уже не существующий рэп-текст. рф и genius.com. Всего после удаления дубликатов и искаженных текстов для анализа осталось 11 396 уникальных текстов. Все тексты мы предобработали — удалили все символы, кроме кириллических, произвели лемматизация и удалили стоп-слова.

Основным методом анализа мы выбрали тематическое моделирование — набор методов, направленных на извлечение из большого корпуса текстов так называемых тем, то есть наборов связанных слов. «Системный Блокъ» уже рассказывал, как работает тематическое моделирование, а также как его можно делать в Tableau и в Mallet.

Мы использовали тематическую модель BigARTM, которая позволяет найти устойчивую базовую модель и, изменяя ее параметры, улучшать ее как с точки зрения интерпретации, так и с позиции формальных метрик. Результатом использования метода стала тематическая модель русского рэпа, состоящая из 17 тем.

О чем же читают рэперы

Нам удалось выделить следующие темы: «смерть», «природа», «житейские истории», «размышления о мире», «поиск и „становление“ себя», «(несчастная) любовь», «город», «создание и чтение рэпа», «мат», «разборки», «жизнь на районе», «вечеринки и секс», «(тяжелое) детство», «размышления о родине», «исполнение музыки», «успех» и «рэперские атрибуты».

Оказалось, что чаще всего рэперы читают о своем жизненном пути, о любви и о природе. Ниже прикреплена визуализация итоговой тематической модели.

Если высокая распространенность тем жизненного пути и любви кажется закономерной, то тема природы и ее высокая распространенность выглядит подозрительно. Но появление темы природы в тексте рэпера вовсе не означает, что рэпер решил прочитать о своей любимой сосне или речке. Просто рэперы часто используют образы природы как художественный прием, как метафору для описания обстановки. Так, например, в тексте Скриптонита «Положение» мы видим строчки:

Тихо, как падал снег, падал весь квартал, мы падали на полпути во сне в поисках нала.

Слово «снег» в данном случае «поднимет» вероятность встретить тему природы в тексте артиста, однако о природе как таковой речи здесь не идет.

Подробнее про каждую из тем рассказываем в нашей статье: https://sysblok.ru/arts/russkij-rjep-cherez-tematicheskoe-modelirovanie-o-chem-chitaet-russkogovorjashhaja-hip-hop-scena/

Антон Бойченко, Светлана Жучкова

2.5K views14:15

Системный Блокъ

Исторические глобусы в 3D: покрутить может каждый
#arts #history

В Британской библиотеке хранится около четырёх миллионов картографических материалов. В основном это земные и астрономические глобусы, созданные западноевропейскими исследователями в 1600–1950 годах. Экспонаты очень хрупки, и до недавнего времени все они находились в закрытых хранилищах, не были доступны даже фотографии отдельных фрагментов, и только узкий круг исследователей имел к ним доступ.

В этом году Британская библиотека оцифровала эти старинные глобусы. Теперь онлайн-пользователь из любой точки мира может изучить более 30 картографических материалов XVII–XX веков. Посмотреть на трёхмерные модели глобусов можно на сайте библиотеки.

Также библиотека планирует создать 3D-модели трети всех материалов. Среди них 32 наиболее редкие и значимые карты. Например, доступным станет первый китайский глобус 1623 года.

3D-модель создается с помощью многокамерной съёмки в субмиллиметровом спектре: множество камер снимают материал кусочками размером меньше миллиметра. При этом используется метод фокус-стекинга (от англ. stacking — «складировать»): глобус фотографируют с разных точек фокусировки и собирают полученные кадры в объёмную модель. Это позволяет многократно увеличить резкость конечного изображения. С такой системой заметными становятся самые мелкие части карты, которые раньше были скрыты от человеческого глаза.

Атлас Кленке: двухметровый символ власти

В 1828 году в Британский музей из личной коллекции короля Георга III был доставлен Атлас Кленке. Его ширина достигает двух метров и это один из самых больших атласов мира. В книге — 41 атлас «золотого века» голландской картографии. Среди них находятся изображения двух полушарий, карты Европы, Азии, Африки, Северной и Южной Америки, отдельные материалы о Британии, Нидерландах, Италии и Украине.

Этот атлас голландский учёный и купец Иоганн Кленке подарил королю Карлу II в. 1600 году в честь восстановления в Англии монархии. В эпоху Возрождения книга считалась не только хранительницей человеческих знаний, но и символом власти. Поэтому такой атлас в руках короля показывал превосходство английской монархии. Карлу II подарок понравился, он разместил карту среди любимой коллекции, а Кленке посвятил в рыцари.

Атлас одним из первых был оцифрован Британской библиотекой. Сейчас его 3D-модель находится в открытом доступе на сайте учреждения.

Первые оцифровщики глобусов

Впервые старинные глобусы оцифровали работники американской библиотеки карт Ошера при университете Саутерн Мэн. Там также пользовались системой сканирования: для создания 3D моделей было сделано от 216 до 900 снимков карт. Самым известным экспонатом библиотеки сегодня является Небесный глобус Джованни Мария Кассини 1792 года.

https://sysblok.ru/arts/istoricheskie-globusy-v-3d-pokrutit-mozhet-kazhdyj/

Дарья Сотникова

2.6K views13:55

Системный Блокъ

«Если бы по Евангелию жили бездумные роботы, они были бы одноглазые, однорукие и одноногие»
#interview

Как сочетаются компьютерные технологии и Церковь? Зачем настоятелю монастыря алгоритм дистрибутивной семантики word2vec? Исследовать церковные тексты цифровыми методами — это вообще нормально? Системный Блокъ поговорил об этом с настоятелем Свято-Троицкого Данилова монастыря игуменом Пантелеимоном.

Отец Пантелеимон уже не первый год применяет методы компьютерной лингвистики в своей научной работе, рассказывает о дистрибутивной семантике студентам духовных учебных заведений, а также привлекает компьютерных лингвистов из Вышки к исследованию богослужебных текстов.

https://sysblok.ru/interviews/esli-by-po-evangeliju-zhili-bezdumnye-roboty-oni-byli-by-odnoglazye-odnorukie-i-odnonogie/

Даниил Скоринкин, Герман Пальчиков

4.3K views15:30

Системный Блокъ

С миру по нитке — фельдшеру зарплата: финансирование здравоохранения в Москве в начале XX века
#history

История здравоохранения — составная часть социальной истории, которая приобрела большую актуальность во второй половине XX — начале XXI века. Для исследования этой темы применяются различные методы и подходы: от исследования политики в области здравоохранения на уровне центральных органов власти до микроисторического подхода, изучающего как люди болели, лечились и выздоравливали, и за чей счёт.

В этом исследовании анализируются статистические источники о финансировании. Основной источник — «Отчеты о состоянии народного здравия и организации врачебной помощи в России» управления главного врачебного инспектора, выходившие в 1904—1916 гг. Эти отчеты хранят сведения о численности населения и его динамике, заболеваемости и смертности населения, больничной инфраструктуре и численности врачей.

Вот, что удалось узнать о финансировании в целом:

— С 1902 по 1914 гг. количество средств, затраченных на здравоохранение, увеличилось практически в 3 раза.
— Финансирование растет более высокими темпами, нежели нагрузка на больничную инфраструктуру.
— И содержание врачей растет более высокими темпами, чем нагрузка на них. Динамику нагрузки и оплаты труда мед. персонала (в отн. к 1902 г.) смотрите на прикрепленном ниже графике.
— Подавляющую часть средств на здравоохранение выделял город — Московская городская управа.
— Доля правительственного финансирования невысока, а в 1906 году его уровень падает практически до нуля — вероятно, это связано с событиями Первой русской революции.

И о расходах на борьбу с эпидемиями:

— В 1907—1909 гг. в Москве было зафиксировано увеличивающееся число заражения инфекционными болезнями (в числе которых корь, скарлатина, коклюш, грипп и др.). Пик эпидемии пришелся на 1909 год, когда число зараженных превысило 400 тысяч.
— В 1909 году расходы на здравоохранение достигли рекордной отметки в 328 тысяч рублей, что на 78% больше, чем в предыдущем году.
— Однако уже в следующем году содержание борьбы с эпидемиями снизилось до 20 тысяч рублей (-94%!), и это снижение несоразмерно с уменьшением заболеваний заразными болезнями на 15%.
— В 1912–1914 годах содержание борьбы с эпидемиями вновь увеличилось — одновременно с повышением и заболеваемости заразными болезнями.

В начале ХХ века финансирование здравоохранения росло опережающими темпами относительно нагрузки на него. Можно заметить определенную нарастающую тенденцию — осознание общественностью необходимости поддерживать уровень общественного здоровья. Из этого следует, что финансирование здравоохранения подвержено сильному антропогенному фактору. Его уровень зависит от мнения органов, в чью компетенцию входит определение бюджета, в том числе медицинского.

О том, как выбирались источники, как велась работа с данными и как разрабатывалась методика исследования, читайте в нашей статье. А также смотрите графики, по которым были сделаны выводы.
https://sysblok.ru/history/s-miru-po-nitke-feldsheru-zarplata-finansirovanie-zdravoohranenija-v-moskve-v-nachale-xx-veka/

Евгений Данилов

2.2K views15:40

Системный Блокъ

Барочный интерактив: что видно на рентгенах скульптур Аккермана
#digitalheritage #arts

Кристиан Аккерман — эстонский скульптор эпохи барокко. Кристиана считали скандальным типом, потому что он нарушал христианские обычаи того времени: жена Аккермана родила ребенка слишком скоро после свадьбы. Также, Аккерман понимал свое творческое превосходство и боролся с гильдейскими мастерами за право работать в качестве независимого мастера, что считалось нонсенсом в то время.

Разбираемся в тонкостях мультимедийного проекта и технологиях исследования.

3D-проектирование

Чтобы создать 3D-проекцию, сначала делают лазерное сканирование, в результате которого бесконтактно определяется положение миллионов точек, формирующих цифровой макет скульптуры. Если этих точек не хватает, исследователи сканируют «сложные» части поверхности скульптуры специальным метрологическим зеркалом.

Затем все данные досконально изучаются, сводятся в единую систему координат и редактируются. В частности, из макета убираются все грубые неточности. В итоге получается точная полигональная модель — четкая 3D-схема скульптуры с большим количеством полигонов (многоугольников).

Мультимедийные 3D-модели предоставляют возможность для тщательного осмотра и сравнения скульптур. Ниже прикрепляем 3D-модель скульптуры «Христос Непобедимый».

Рентгеновская съемка

Цифровой рентгеновский аппарат подходит для исследований различных предметов искусства от живописи до скульптуры. Это компактное портативное устройство, которое можно перевозить с собой, ведь многие произведения искусства не подлежат перевозке или даже небольшим перемещениям в пространстве.

Как это работает: ослабленные рентгеновские лучи проходят через скульптуру, а полученное изображение регистрируется и попадает на специальную пленку. Когда свет проходит сквозь материал, начинается образование пучков излучения, которые после рассеиваются и «замораживаются» на пленке.

Цифровая рентгенография позволяет увидеть внутренний каркас произведений искусства, разглядеть все скрытые составляющие и проанализировать режимы работы мастера. Также эта процедура помогает выявить скрытые дефекты, трещины, сколы, а также найти внутренние стержни предмета, металлические или деревянные.

Например, рентгеновский снимок скульптуры Аккермана «Святой Апостол Петр» показал, что в основе фигуры находятся блоки липы, которые были склеены и укреплены кузнечными гвоздями еще до начала резьбы.

Исследование в ультрафиолетовом излучении

УФ-анализ позволяет увидеть интегральное свечение защитных слоев (концентрацию минералов в покрытии), красочного слоя, грунта, да и вообще каждого компонента в отдельности. С помощью УФ-анализа можно узнать, в каком состоянии находится произведение: был ли утрачен красочный слой и грунт, или их вовсе не было, насколько велика глубина защитных слоев. Также УФ-анализ выявляет не только цвет, но и плотность, яркость и равномерность нанесения красок.

Выяснилось, что практически все скульптуры Аккермана первоначально имели цвет. Лица многих фигур были розовыми, глаза, брови и волосы — коричневыми или светлыми, губы — красными, а одеяния — позолоченными. Также исследователи обнажили полихромию «Иоанна Богослова» до половины его лица: на лице была нарисована улыбка, а взгляд, обращенный к небесам, был «открыт» с помощью краски.

Результаты

Результаты проведенного исследования находятся в свободном доступе. На веб-платформе проекта можно найти интерактивные 3D-модели, рентгеновские и УФ-снимки резных скульптур Аккермана, а также интерактивные таймлайн и карту, где посетители веб-портала могут выбрать интересную им скульптуру или место ее нахождения и узнать о ней более подробную информацию.

https://sysblok.ru/digital-heritage/barochnyj-interaktiv-chto-vidno-na-rentgenah-skulptur-akkermana/

2.1K views15:55

Системный Блокъ

Инстаграм в наследство: как быть с аккаунтами умерших в соцсетях
#society #digitalmemory

Различные варианты «смерти» и «бессмертия» в цифровой среде охватывает термин digital afterlife. Цифровизация делает память «непреходящей»: воспоминания, организованные в базы данных и алгоритмы, не дают легко расстаться с прошлым. Социальные сети постоянно напоминают нам о событиях, которые случились ровно год или несколько лет назад, подкидывают страницы знакомых, о которых мы могли забыть. Тем сложнее мысленно расстаться с умершим человеком, данные которого продолжают существовать в сети.

Цифровые призраки

Рано или поздно перед каждым пользователем интернета может встать вопрос о судьбе аккаунтов близкого человека. Очевидное и популярное решение — оставить аккаунты умершего как есть. Любые данные, которые остаются от пользователя после его смерти, исследователь Эрик Стейнхарт определяет как «цифровой призрак». Таким призраком становятся главным образом профили в соцсетях.

По подсчетам экспертов, уже в 2012 году в Facebook было около 400 тысяч «мертвых душ», к 2050 году их число достигнет 500 миллионов, а рано или поздно превысит количество живых людей. Поэтому Facebook предлагает пользователям еще при жизни «завещать» свою страницу доверенному лицу. Такому доверенному человеку не будут видны личные сообщения или посты. Он не сможет удалять старые посты, зато может размещать новые. Если человек не указал «хранителя», то его близкие, документально подтвердив родство, могут удалить страницу или присвоить ей статус памятной.

Выбор доверенного лица по примеру Facebook ввели почти все крупные платформы. Instagram предоставляет возможность создать «посмертную галерею». Google сделал целый раздел «На всякий случай», заполнив который вы решите судьбу вашего аккаунта. Японское отделение Yahoo! в сотрудничестве с ритуальным бюро «Камакура Шиншо» запустило сервис Yahoo! Ending. С его помощью можно собрать все пароли и передать их доверенному лицу.

Цифровое бессмертие

Физическая смерть не обязательно подразумевает прекращение активности аккаунтов. Еще один подход к digital afterlife — публикации от лица умершего пользователя, своего рода цифровое бессмертие. Для этого можно воспользоваться отложенными публикациями или самообучающейся нейросетью. Например, сервис MyWishes предлагает создать прощальные сообщения сразу для нескольких соцсетей.

Британское креативное агентство Lean Mean Fighting Machine в 2013 году представило концепцию «твитов с того света». Приложение LivesOn должно было анализировать построение предложений, часто повторяющиеся слова, фразы и темы, которые человек использует в Twitter, и на основе этого комбинировать новые сообщения. Но сервис так и не запустили.

Стартап румынского дизайнера eterni.me предлагает собирать и анализировать информацию из твитов, переписок, комментариев и создавать на основе этого так называемый «аватар». Если отвечать на вопросы на протяжении долгих лет, тренируя «аватар», то можно создать приближенную к реальности копию себя.

Приложение Roman Mazurenko стартапа Luka — алгоритмизированная в форме чат-бота личность конкретного человека, погибшего в ДТП в 2015 году. За основу разработчики взяли личные сообщения и фотографии Романа Мазуренко, арт-директора «Стрелки» и основателя Stampsy.

Новое понимание бессмертия

Как правило, люди представляют себе бессмертие как вечную жизнь души и физической оболочки. Однако в новом понимании бессмертие не предполагает продление жизни человека в прямом смысле. Скорее, оно подразумевает консервацию его личности для того, чтобы этим воспользовались друзья, родственники и другие заинтересованные люди. Дальнейшим развитием этой концепции может стать сканирование и цифровизация тела. Превращение личности в алгоритм — вот актуальная перспектива бессмертия.

Больше подробностей — в нашей статье: https://sysblok.ru/society/instagram-v-nasledstvo-kak-byt-s-akkauntami-umershih-v-socsetjah/

Ирина Родионова

2.4K views12:40

Системный Блокъ

Лев Толстой онлайн: цифровые проекты о творчестве и жизни писателя
#philology

Портал tolstoy.ru — самый крупный ресурс о творчестве и деятельности писателя. Здесь собрана вся информация о жизни и творчестве писателя, а также о посвященных ему исследовательских проектах, музеях и событиях.

Проект «Весь Толстой в один клик»

Задача проекта «Весь Толстой в один клик» заключалась в оцифровке и распознавании текста в полном собрании сочинений Толстого. В основу легло единственное полное 90-томное собрание Л. Н. Толстого и том именного указателя. В него вошли все сохранившиеся и доступные на момент публикации произведения, рассказы, повести, дневники и письма.

Электронное собрание сочинений, а также дневники и записные книжки Толстого доступны на сайте tolstoy.ru для бесплатного скачивания в форматах PDF, FB2, MOBI и EPUB. А на сайте readingtolstoy.ru можно отметить себя на интерактивной карте читателей Толстого.

Веб-приложение «91-й том. Указатель к Толстому»

91-й том — это бумажный указатель к 90-томнику. Он состоит из указателей произведений, адресатов корреспонденции и других собственных имен, которые упоминает Толстой. Ресурс помогает пользователям и специалистам в исследовании жизни Толстого и связи между томами. Приложение также имеет своего бота в соцсети «Телеграм».

Акция «Каренина. Живое издание»

В начале октября 2014 года музей-усадьба Л. Н. Толстого «Ясная Поляна» и компания Google организовали масштабную акцию «Каренина. Живое издание». Впервые «Анну Каренину» прочли вслух за 36 часов в прямом эфире на платформах Google+ и YouTube. Их можно найти на YouTube под хэштегом #KareninaLive. Среди читателей были потомки Толстого, знаменитые артисты, спортсмены, музыканты, журналисты и даже государственные деятели.

Поисковик «Толстой Digital»

«Толстой Digital» — это семантическое издание, в котором тексты Толстого дополняются метаданными. Для писем, например, это дата и время написания и адресат, а в перспективе появится внутритекстовая семантическая разметка. Так тексты превратились в базу данных, которая позволяет «отвечать» на некоторые умные запросы пользователей. К примеру, ресурс показывает все письма Толстого Фету за определенный период времени.

Романы Толстого в приложении «Живые страницы»

Приложение «Живые страницы» превращает текст произведений в интерактивную литературную энциклопедию. В нем доступно три произведения Толстого: «Война и Мир», «Анна Каренина» и «Воскресение». В приложении можно отслеживать перемещение героев, смотреть календарь событий и карточки персонажей, проходить тесты и многое другое.

Проект «Приложения к музею. Студенты — Толстому»
Этот проект объединяет несколько проектов студентов ВШЭ.

Каторжный путь героев «Воскресения». Интерактивная карта, авторы которой воссоздали географический контекст произведения. На ней также отмечены все ключевые события романа.

География «Севастопольских рассказов». Интерактивная карта, создатели которой указали на ней места действий в рассказах и добавили материалы из дневников самого Толстого.

Путь Л. Н. Толстого. Интерактивная карта о путешествии писателя на протяжении жизни с текстовыми заметками и фотографиями.

Кулинарная книга Л. Н. Толстого. Авторы опирались на роман «Война и мир» и брали оттуда рецепты блюд. Получилось раскрытие кулинарных тайн XIX века.

Путешествие бельчонка Тима по усадьбе Л. Н. Толстого в Хамовниках. Детский аудиогид для детей до 8 лет. Он состоит из сказок Льва Николаевича, записей его голоса и музыки, а также содержит рассказы об экспонатах и истории московской усадьбы в Хамовниках.

Больше подробностей — в нашей статье: https://sysblok.ru/philology/lev-tolstoj-onlajn-cifrovye-proekty-o-tvorchestve-i-zhizni-pisatelja/

Варвара Гузий

3.7K views11:15

Системный Блокъ

«Рабовладельческий Техас»: история одного штата
#history

Расовый скандал, разгоревшийся в США в конце мая, с каждым днем набирает все большие обороты. Однако причины беспорядков в Америке лежат не столько в полицейском произволе, произошедшем в мае 2020 года, сколько во многовековой истории рабства.

Ввоз африканских рабов в США был официально запрещен в 1807, но, несмотря на это, в южные Штаты продолжалась поставка рабов из Африки вплоть до второй половины 19-го века. По данным исследователей из Университета Эмори, к концу 18-ого века на территорию Соединенных Штатов в общей сложности было доставлено около 600 тыс. рабов, потомки которых также становились невольниками, и уже к 1860 году численность рабов возросла почти до 4 млн. человек. Из 1,5 млн белых семей, проживавших в южных штатах, почти 400 тыс. имели рабов.

На то, чтобы штат Техас отказался от дешевого рабского труда, потребовалось почти 60 лет. 19 июня 1865 года в городе Галвестон (штат Техас) генерал армии со стороны Севера Гордон Грейнджер произнес слова, которые изменили ход истории: «В соответствии с прокламацией исполнительной власти Соединенных Штатов все рабы свободны».

The Texas Slavery Project

В 2007 году появился проект «The Texas Slavery Project», который позволяет изучить и проанализировать рабовладельческую деятельность в Техасе. На сайте есть данные о численности населения — рабов и рабовладельцев — в каждом округе штата Техас, а также дошедшие до наших дней налоговые декларации. Большая часть данных была получена с негативов микрофильмов, хранящихся в Техасской государственной библиотеке и архиве (TSLA).

В нашей статье рассказываем о цифровых инструментах The Texas Slavery Project, которые позволяют исследовать то, как менялась ситуация с рабством в раннем Техасе, а также показываем релевантные графики. Например, ниже прикрепляем график сравнения рабовладельцев по количеству по удерживаемых рабов. https://sysblok.ru/history/rabovladelcheskij-tehas-istorija-odnogo-shtata/

Валерия Басова

2.0K views12:00

Системный Блокъ

Эволюция литературы: может ли Дарвин объяснить Конан Дойла и футуризм
#philology

В отличие от биологии, в филологии нет общепринятой теории эволюции литературы. Никто до конца не понимает, почему одни книги оказываются в центре внимания и входят в канон, другие остаются неизвестными, а третьи переживают период славы, но быстро забываются. Но были (и есть) те, кто пытается адаптировать теорию эволюции к анализу словесности. Рассказываем о двух подходах к объяснению эволюции литературы.

Подход формалистов

Юрий Тынянов, участник кружка формалистов, предложил смотреть на литературу как на поле со своими «центром» и «периферией», в рамках которого литературные тексты конкурируют друг с другом за место в центре литературного процесса. Согласно Тынянову, в центр далеко не всегда попадает самый «лучший» и образцовый литературный продукт. Наоборот: попасть в центр и сместить то, что было до него, имеет возможность скорее «патологическая» литература — нечто случайное, слабое и сначала даже не осознаваемое как литературный факт.

Таким образом формалисты вступают в скрытую полемику с дарвинизмом: по их мнению, в литературном процессе именно слабый и неприспособленный побеждает сильного и приспособленного, а не наоборот.

Дарвинистский подход

Современный социолог литературы Франко Моретти, наоборот, сравнивает процесс эволюции литературы с бойней, где мясниками оказываются «сами читатели, которые читают роман, А, (но не В, С, D, E, F, G, H…) и так поддерживают жизнь, А в следующем поколении». Получается, что роман «А» выживает из поколения в поколение, потому что именно к нему по той или иной причине приковано читательское внимание, и уже впоследствии роман «А» канонизируется академическим сообществом, а не наоборот.

Чтобы понять, почему одни художественные тексты выживают и читаются из поколения в поколение, а другие нет, рассмотрим два эксперимента, которые поставил Моретти.

Первый эксперимент: как Шерлок Холмс уцелел в бойне

Моретти вместе со студентами проанализировал нескольких десятков детективных рассказов, написанных в эпоху Конана Дойла. Они смотрели на то, как функционируют улики в этих рассказах, после чего разделили все рассказы на группы:
— рассказы с дешифруемыми уликами: на основе улик читатели самостоятельно могут прийти к разгадке;
— рассказы с функциональными уликами: улики помогают детективу (но не читателю) раскрыть дело;
— рассказы с упоминаемыми уликами: улики не выполняют никакой функции;
— рассказы без улик.

После анализа Моретти сделал следующие выводы: самой успешной категорией рассказов оказалась первая — рассказы с дешифруемыми уликами. В основном в этой группе оказались именно рассказы Конана Дойла. А отсутствие в детективных рассказах дешифруемых улик оказалось существенной причиной, по которой они не прошли «естественный отбор».

Второй эксперимент: эволюционные скачки

Расширив выборку, Моретти также замечает, что рассказы с дешифруемыми уликами в период с 1891 по 1900 не приживаются, а произведения без них появляются все чаще. Парадокс: то, что впоследствии победило литературных конкурентов и оказалось доминирующим, сначала вообще не воспринималось как нечто серьезное и важное в рамках литературного процесса.

Поэтому Моретти отказывается от дарвиновского принципа «природа не делает скачков» и заявляет, что литература развивается и меняется ТОЛЬКО через скачки. Подтверждает это феномен Агаты Кристи, укоренившей улики в детективе: «Скачок — Конан Дойл. Еще прыжок — Кристи», — пишет Моретти.

Дарвинизм и антидарвинизм в литературной эволюции: единство противоположностей

Кажется, что выводы, к которым пришел Моретти, не противоречат теории литературной эволюции, которую предложили формалисты. Открытие Моретти укладывается в теорию формальной школы: такой формальный прием, как дешифруемая улика, изначально находившийся на периферии, перемещается в центр литературного процесса.

https://sysblok.ru/philology/jevoljucija-literatury-mozhet-li-darvin-objasnit-konan-dojla-i-futurizm/

Вячеслав Кутепов

1.9K views12:30

Системный Блокъ

Проект Гутенберг: от тысячи книг до электронного собрания
#digitalheritage

Project Gutenberg — это собрание бесплатных электронных книг. Проект появился в июле 1971 года и постоянно пополняется, благодаря десяткам тысяч добровольцев, которые оцифровывают, вычитывают и выкладывают книги на портал, поэтому сейчас для скачивания доступно более 60 тыс. книг. Ядро проекта — изданные до 1924 года произведения с истекшими авторскими правами.

Библиотека проекта включает в себя три раздела. В разделе «Легкая литература» можно найти детские произведения и притчи для семейного чтения, в «Тяжелой литературе» — религиозные документы и сочинения классиков, а в «Ссылках» — альманахи, энциклопедии, словари и справочники. Издания представлены в разных форматах и на 50 языках.

История проекта

Автор проекта — Майкл Харт, студент университета Иллинойса, которому друзья из лаборатории исследования материалов предоставили счет с «компьютерным временем» на 100 млн долларов. В то время вычислительные мощности дата-центров были в десятки раз меньше, чем в смартфоне, и распределялись по часам. 4 июля Харт перевел «Декларацию независимости» в электронную форму, а друзья уговорили его разместить текст в свободном доступе. Файл скачало 6 человек, и Project Gutenberg «родился».

В течение первых двадцати лет Харт лично оцифровал сто текстов и набрал сотни волонтеров. Для них в октябре 2000 года Чарльз Фрэнкс, коллега Харта, основал веб-сайт Distributed Proofreaders. Здесь корректоры-волонтеры выбирают книги для вычитки и координируют работу между собой.

Философия проекта

Майкл Харт опирался на концепцию «технологии репликатора». Ее суть в том, что каждый человек может получить копию материалов, которые когда-либо появлялись в сети. Project Gutenberg создавался, чтобы «поощрять, создавать и распространять больше бесплатных электронных книг» и «разрушать преграды невежества и неграмотности».

Изначально проект задумывался как общественное достояние. Создатели также подчеркивают, что проект является чисто волонтерским, не стремится к перфекционизму и не зависит от какой-либо финансовой или политической власти.

Подход к оцифровке

Project Gutenberg не просто сканирует книги, а переводит их в цифровой формат. После сканирования издание распознают, затем дважды вычитывают два разных человека и вносят правки. Distributed Proofreaders позволяет нескольким корректорам работать над одной книгой одновременно, каждая правка читается на разных страницах. При плохом состоянии оригинала текст вносят в компьютер вручную.

Большинство книг оцифровано в формате Plain Text, поэтому их легко читать на любом устройстве или программном обеспечении, а также копировать, индексировать, искать, анализировать и сравнивать. Пользователи также могут менять шрифт, размер символов или фон текста, поля или количество строк на странице.

Смежные проекты

У Project Gutenberg есть много партнеров и филиалов.
— Project Gutenberg-DE сосредоточен на немецкой литературе.
— Project Runeberg занимается литературой скандинавских стран.
— Project Gutenberg of Australia — австралийский филиал проекта.

— Project Gutenberg of Canada специализируется на канадской литературе на английском и французском языках. Помимо него существует канадский список Эндрю Слая, где хранятся книги авторов, которые переехали в Канаду или жили в других местах. А проект Канадского института исторических микропродукций состоит из отсканированных страниц из ранней канадской литературы.

— ClassicalArchives.com — интернет-архив с записями классической музыки в разных форматах.
— На Librivox.org и LiteralSystems хранятся аудиокниги и другие материалы в аудиоформатах.
— В интернет-архиве Project Gutenberg хранятся резервные копии первых книг.

https://sysblok.ru/digital-heritage/proekt-gutenberg-ot-tysjachi-knig-do-jelektronnogo-sobranija/

Варвара Гузий

3.4K views11:20

Системный Блокъ

Обзор магистратур по цифровым гуманитарным исследованиям
#education #digest

Где в России в 2020 году учат на цифрового гуманитария? Куда можно зайти с дипломом филолога (историка, культуролога, мемолога…) — и выйти с навыками программирования, анализа и визуализации данных, веб-разработки, с опытом работы в междисциплинарной исследовательской команде?

«Системный Блокъ» снова рассказывает про актуальные магистерские программы в области Digital Humanities в России.

1. «Цифровые методы в гуманитарных науках», НИУ ВШЭ, Пермь.
Новая программа от пермского кампуса Вышки собрала хорошую команду специалистов по цифровой истории (исторические базы данных, исторические ГИСы, исторический сетевой анализ), Digital Humanities и новым медиа. Обещают также Python, R и много проектной работы.

2. «Цифровые методы в гуманитарных науках», НИУ ВШЭ, Москва.
Магистратура от DH-центра Вышки. Здесь можно разобраться в анализе данных (включая его математическую составляющую, которую преподают очень внятно) не имея технического бэкграунда, прокачаться в Python, особенно если вы пришли с нулевым уровнем, ну и, конечно, погрузиться в современные Digital Humanities. Группа Вконтакте.

3. Анализ культурных данных и визуализация/ Data, Culture and Visualization, ИТМО, Санкт-Петербург.
Программа от DH центра в Университете ИТМО. Здесь тоже есть и программирование, и анализ данных, и сети с GIS-ами, и, конечно, визуализация. Внутри магистратуры два трека на выбор:

— трек для «цифровых гуманитариев» (работают преимущественно с оцифрованными артефактами нецифровой культуры: литература, искусство и т. п.)
— трек для «аналитиков культуры» (работают с digital-born данными: инстаграм, соцсети, сетевая словесность и т. п.)

4. «Цифровые технологии в гуманитарных исследованиях», БФУ им. Канта, Калининград.
Гибридная программа, на которой учатся историки, филологи и документоведы. По нашим ощущениям, уклон этой программы все же скорее исторический, чем филологический. Многие проекты магистратуры связаны с цифровыми музеями, есть специалисты по 3D и VR.

5. «Гуманитарная информатика» и «Цифровые технологии в социогуманитарных практиках», ТГУ, Томск. Группа Вконтакте.
Две «сестринские» программы от Лаборатории гуманитарных проблем информатики ТГУ.

«Гуманитарная информатика» — программа более гуманитарно-философская, здесь есть курсы по философии искусственного интеллекта, цифровой культуре и т. п. Впрочем, прикладные навыки тоже дают — учат разработке пользовательских интерфейсов, анализу данных, азам 3D-графики.

Вторая программа, «Цифровые технологии в социогуманитарных практиках», рассчитана на технарей. В учебном плане много технических дисциплин вроде программирования, баз данных, и компьютерной графики, основной фокус — разработка и дизайн интерфейсов.

6. «Цифровые технологии в филологии, компьютерная лингвистика» ЮФУ, Ростов-на-Дону
Программа по Digital Humanities от Южного федерального университета. Уклон в филологию и лингвистику — программа представляет собой этакий гибрид курса компьютерной лингвистики и Digital Humanities. Во время практики здесь можно поработать с корпусом донских говоров ДонКРЯ, а также поучаствовать в проекте цифрового семантического издания А. П. Чехова Chekhov Digital. Группа Вконтакте.

7. Прикладная информатика в области искусств и гуманитарных наук, СФУ, Красноярск.
Программу делает кафедра информационных технологий в креативных и культурных индустриях СФУ — специалисты по музейной оцифровке, сохранению культурного наследия в электронной форме. Здесь учат техникам оцифровки и визуализации музейных экспонатов (в том числе 3D) и прочему digital preservation. Есть курсы по математическому моделированию и проектированию информационных систем.

8. Историческая информатика, МГУ им. Ломоносова, Москва
В отличие от Digital History, историческая информатика не считает себя частью Digital Humanities и не стремится к междисциплинарности. Вот и в этой магистратуре от кафедры исторической информатики МГУ занимаются серьезной академической наукой, не выходя за рамки истории.

2.2K views10:50

Системный Блокъ

Цифровой Ван Гог: на грани вечности
#arts #philology

Винсент Ван Гог активно творил всего 10 лет, но его творчество оставило значительный след в живописи. Одни знают об этом художнике благодаря легенде об отрезанном ухе. Другие вспоминают его единственную проданную картину «Подсолнухи». Третьи — вдохновляется его биографией и поиском призвания как автора.

Представляем вашему вниманию проекты, которые будут полезны как исследователям, так и поклонникам мастера.

Литературный корпус «Vincent van Gogh. The Letters»

В основе литературного корпуса лежат письма, которые писал и получал Ван Гог в 1853–1890-е гг. Сейчас на сайте проекта находятся 903 письма, 820 из которых отправил сам Винсент. Каждому письму присвоили свой номер и добавили ссылки на копии/черновики/связанные материалы. Основными получателями были брат Тео и друзья-художники Поль Гоген и Эмиль Бернар.

Помимо писем, исследователи собрали материалы о самом художнике, архив его работ, черновиков (25 «родственных рукописей») и редакторских эссе, а также биографию Винсента и переписку его родственников.

Мультимедийные выставки

Жизнь и творчество Ван Гога распадается на два периода — мрачный голландский и яркий французский. Переписка с братом Тео демонстрирует изменения в мировоззрении художника и его отношении к творчеству.

Австралийская компания GRANDE EXHIBITIONS создала два мультимедийных проекта, посвященных жизни и творчеству Ван Гога. В обоих использовалась технология Cinema360. Изображения проецировались на экраны, стены, и пол, что визуально меняло геометрию зала и создавало эффект погружения.

Выставка «Ван Гог. Ожившие полотна» рассказывала о творчестве самого художника. В 2014 году в центральном зале центра дизайна ARTPLAY показали больше 3000 тематических изображений: картины мастера, письма и записи. Вместе с ними использовались звуковые эффекты: крики птиц, голоса людей, шелест и др.

Проект «Ван Гог. Письма к Тео» заострял внимание на отношениях художника с братом. К 400 картинам добавили закадровый текст в исполнении актера Владимира Зайцева, который также озвучивал Винсента в исполнении Уильяма Дефо в фильме «Ван Гог. На пороге вечности».

Фильм «Ван Гог: С любовью, Винсент»

«Ван Гог: С любовью, Винсент» — это полнометражный анимационный фильм, над которым трудилась команда из 100 художников. После съемок художники два года вручную отрисовывали масляными красками 62450 кадров на холсте согласно технике Ван Гога. Все кадры перетекает друг в друга, из-за чего фильм воспринимается как одна большая живая картина.

Сюжет повествует о событиях после гибели мастера. Сын старого почтальона берётся за расследование причины смерти Ван Гога. Для этого он приезжает в деревню, где Винсент жил в последнее время. В разговорах с очевидцами и свидетелями герой понимает, что виновник унёс с собой много тайн. Каждый рассказывает свою версию, которая не совпадает со словами других. Противоречия в рассказах наводят главного героя на мысль о возможном убийстве художника.

Глубокое погружение

Современные технологии позволили не только перенести картины Ван Гога на экран, но и проникнуть внутрь них. Цифровой художник Петрос Врелис создал интерактивное изображение «Звездной ночи». При прикосновении к сенсорному экрану зритель влияет на визуальную и звуковую составляющие: вместе с изменениями картины запускается музыка, которая создает эффект присутствия.

Автор Мак Каули пошёл дальше: на основе картины «Ночь в кафе» он создал видеоряд, который мы прикрепили ниже. Технология позволяет подробно изучить произведение изнутри, посмотреть на мир глазами Ван Гога и словно увидеть мгновение в движении.

В музее Ван Гога в Амстердаме посетители могут рассматривать картины под специальным микроскопом, который позволяет разглядеть каждый штрих и мазок на картине, волоски с кисточки, фактуры и объём краски на отдельных участках.

https://sysblok.ru/philology/cifrovoj-van-gog-na-grani-vechnosti/

Варвара Гузий

YouTube

The Night Cafe - An Immersive VR Tribute to Vincent van Gogh

The Night Cafe is an immersive VR environment that allows you to explore the world of Vincent van Gogh first hand. Take a moment to enjoy his iconic sunflowe...

2.1K views11:45

Системный Блокъ

Алтари Средневековья в твоем смартфоне
#arts #digitalheritage

Герман Роде — немецкий художник, живший в 15 веке, которому приписывают создание нескольких алтарных фигур. В Эстонии и Германии оцифровали две известные работы живописца — алтари св. Луки и св. Николая. Алтари находятся в разных странах, но теперь не обязательно ехать в Германию или Эстонию, чтобы их увидеть. Мультимедийная экспозиция работ сегодня доступна онлайн для каждого желающего бесплатно.

Мультимедийная экспозиция включает в себя не только оцифрованные работы немецкого художника, но и их исследовательский разбор, что позволяет лучше изучить и понять замысел автора. Исследователям удалось больше узнать о героях легенд, изображенных на работах Роде, а также сопоставить их с реально жившими людьми. Иконографические описания и их анализ позволяют понять истории, которые изображены на алтарях.

Технологии оцифровки

Благодаря технологиям, которые выбрали авторы экспозиции, можно полностью рассмотреть алтари снаружи и внутри. Фотографии работ живописца сделаны в самом высоком на сегодняшний день разрешении. Это дает зрителю возможность обнаружить детали, которые трудно разглядеть на реальных алтарях.

При оцифровке также применялась технология инфракрасной съемки, в которой используется специальная фотопленка или светофильтр для цифрового фотоаппарата. Их чувствительность к инфракрасному световому излучению помогает увидеть под слоями краски изначальные рисунки художника.

Алтарь св. Николая

Алтарь св. Николая в Таллине достигает шесть метров в ширину. Тем не менее, его оцифрованная версия доступна в самом высоком разрешении. Несмотря на то, что работе несколько столетий, она до сих пор является одной из самых хорошо сохранившихся алтарных фигур Средневековья. Алтарь имеет изображения более сорока библейских персонажей. На создание этой работы горожане пожертвовали 1250 рижских марок. Наибольшая сумма тогда была внесена богатыми торговцами и Братством Черноголовых.

Алтарь св. Луки

Вторая работа художника, представленная в экспозиции в ширину составляет всего два метра, однако это не делает ее менее величественной. Алтарь св. Луки в Любеке был создан для церкви Святой Екатерины, которая ранее была храмом Францисканского монастыря. Это единственная работа Роде, на которой есть не только его подпись, но и дата создания самого алтаря.

https://sysblok.ru/arts/altari-srednevekovja-v-tvoem-smartfone/

Елизавета Снежко

2.1K views16:40

Системный Блокъ

Оттенки онлайн: новая жизнь каталога цветов XIX века
#visualisation

Как создать универсальный каталог цветов, когда цветная фотография еще не изобретена? Эта проблема стояла перед людьми на протяжении многих веков. Единственный возможный вариант — идентифицировать цвета с помощью словесного описания. В этом случае, чтобы избежать субъективности, было решено опираться на природные объекты, которые имеют соответствующие оттенки.

В конце XVIII века ученый-геолог Абраам Готлоб Вернер выпустил каталог минералов для идентификации их по ряду внешних признаков: весу, запаху, твердости или цвету. При этом он выделил 8 основных цветов и 55 дополнительных оттенков. Эту идею систематизации было логично применить и для художественных целей и по аналогии с каталогом минералов создать каталог цветов.

В начале XIX века такой проект был осуществлен. Шотландский художник-натуралист Патрик Сайм, основываясь на классификации Вернера, создал такой каталог цветов. Он был опубликован в 1814 году и содержал подробные описания 110 различных оттенков. Взяв за основу работу своего предшественника, Патрик Сайм добавил цветовые образцы и примеры того, где можно найти эти цвета в природе среди растений, животных и минералов. В результате получился наиболее полный для своего времени каталог, который приобрел широкую известность.

Конечно, в наши дни существует большое количество подробных и специализированных справочников по колористике. Тем не менее каталог Вернера по-прежнему представляет интерес и как объект изучения историков, и как полезный справочник для художников. Однако цвета, напечатанные на бумаге, со временем блекнут, а ведь именно они представляют наибольший интерес в данном случае. Одним из выходов может стать оцифровка издания, что и было сделано. Оцифрованный каталог цветов Сайма можно полистать в интернет-архиве проекта Гутенберг.

Однако использовать эту книгу для работы по-прежнему затруднительно. Во-первых, в ней есть много упоминаний о растениях и животных, которые могут быть неочевидны для неспециалиста. Например, для красновато-сиреневого (Red Lilac Purple) автор отсылает читателя к цвету точек на переднем крыле бабочки павлиний глаз, а для желтовато-серого (Yellowish Grey) — к веточкам барбариса. Во-вторых, при рассмотрении описания того или иного оттенка читателю придется все время перелистывать книгу, возвращаясь к описанным ранее цветам, что может показаться утомительным занятием.

Новая жизнь каталога

Николас Руже — веб-дизайнер, который специализируется на художественной обработке данных и их представлении в необычном и красивом виде. Одним из его проектов стало создание оцифрованной версии каталога Вернера, дополненного Саймом.

Сначала цветовые образцы из книги были отсканированы, а текст набран на компьютере. На этом этапе получился старый каталог в новом виде. Затем Николас Руже добавил фотографии тех растений, животных и минералов, которые были приняты за образцы автором каталога. Кликнув на определенный цвет, можно посмотреть, как он выглядит в природе.

Для каждого оттенка в каталоге Вернера указано, какие цвета надо смешать, чтобы его получить. Поэтому на следующем этапе работы в каталог были добавлены гиперссылки, чтобы можно было быстро переключаться между подробными справками о цветах и не искать их вручную. Кроме того, была создана единая схема смешиваний.

Ниже прикрепляем скриншот, на котором один из оттенков оранжевого охарактеризован с помощью цвета бородавчатого тритона. А полную версию каталога можно посмотреть на личном сайте-портфолио Руже.

Другие его проекты по визуализации включают оцифровку старинной книги с описаниями растений, упоминания названий оттенков в литературе, распространенность цветов на флагах различных стран, представление музыки в виде комбинации разноцветных точек разного диаметра и многое другое.

https://sysblok.ru/visual/ottenki-onlajn-novaja-zhizn-kataloga-cvetov-xix-veka/

Светлана Филатова

2.1K views14:15

Системный Блокъ

Что хранит библиотека Конгресса США
#digitalheritage

Библиотеки давно вышли за рамки «хранилищ книг»: сейчас они наращивают не только фонды печатной продукции, но любых объектов, представляющих культурную или историческую ценность. В крупнейшей в мире библиотеке — библиотеке Конгресса США — на сохранении находятся более 170 млн объектов — книг, нотных записей, манускриптов, фото, видео, аудио и др.

Самые масштабные коллекции

В библиотеке собраны 429 коллекций самого разного материала. Самые большие коллекции — это фотопроект о жизни Америки в 1935–1944 (более 170 тыс. снимков) и коллекция документов о пропавших без вести во время Вьетнамской войны (более 160 тыс. документов).

Для картографов есть коллекция карт пожарной безопасности (около 33 тыс.). Коллекцию заботливо снабдили большим справочником для ее чтения, где авторы коллекции рассказывают о сложной внутренней системе символов и значений.

Есть даже коллекция Popular Graphic Arts (около 15 тыс.), в которую собирают разные визуальные документы эпохи о людях, местах, предметах. Авторы коллекции указывают, что коллекция составляется из «документов» из разных стран и не относится исключительно к Америке. В основном здесь собраны документы от 1700 до 1900 года.

Вклад библиотеки Конгресса в развитие истории и культуры других стран

Библиотека Конгресса США — огромна, и в ней часто находят то, что важно для истории стран других. Например, коллекция Брумфилда — фотографии памятников архитектуры севера России, сделанные в 1999–2003 году. Уильям Брумфилд — историк российской архитектуры, краевед Вологодской области, преподает русский в университетах Тулейна, Нового Орлеана и Луизианы.

Также в библиотеке есть коллекция первых цветных фотографий русского ученого и фотографа Сергея Михайловича Прокудина-Горского. С 1948 года, когда библиотека выкупила материалы у потомков Прокудина-Горского, его непроявленные негативы осели в архивах мертвым грузом, но в 2000 году — спустя 52 года — библиотека заключает контракт с компанией JJT. Специалисты оцифровывают 122 стеклянных негатива по специальной технологии. В 2001 году библиотека Конгресса проводит фотовыставку «Империя, которой была Россия». Сейчас коллекции добавили все 1902 оцифрованных в 2004 году негатива, а также 705 сепия-фотографий из альбомов Прокудина Горского.

Совсем недавно специалисты библиотеки оцифровали и скомпоновали коллекцию персидских рукописей на фарси, что произвело фурор в мусульманском мире. «Коллекция позволяет познакомиться с научными, религиозными, философскими и литературными традициями персидской культуры, охватывающими период продолжительностью более тысячи лет», — заявил сотрудник библиотеки Хирад Динавари после первой публикации 150 рукописей в апреле 2019 года. Сейчас в коллекции 303 оцифрованных манускрипта.

Месяцем позже библиотека публикует коллекцию манускриптов на китайском языке. Специалисты библиотеки Конгресса оцифровали материалы периодов династий Сун (960–1279), Юань (1271–1368), Мин (1368–1644) и Цин (1644–1911). Самой ранней работой признан манускрипт от 1102 года. Пресс-служба библиотеки отметила, что оцифрованы труды по географии, истории, медицине, философии, литературные произведения, религиозные тексты (в т. ч. сутры буддизма). Многие из произведений существуют в единственном экземпляре, в библиотеке Конгресса.

Также, в этом году в фонде библиотеки был найден единственный фильм, в котором есть кадры того, как борется Георг Лурих — уроженец Эстонии, один из сильнейших борцов начала XX века. Директор Эстонского музея спорта и олимпийских игр Сийм Рандоя нашел фильм по обрывкам информации («1910 год, Дания, борьба»). «Никто его никогда не видел и не знал, про кого он снят. Я решил его оцифровать, и когда под рождество получил фильм, то с первых кадров увидел Луриха», — говорит Рандоя в интервью. — Это было мощно. Было известно, что никто никогда не видел, как он борется, и тут такая находка!».

Больше подробностей — в нашей статье: https://sysblok.ru/digital-heritage/chto-ne-skryvaet-kongress-ssha/

Артур Хисматулин

4.2K views15:30

Системный Блокъ

Памяти А. А. Зализняка
#nlp #linguistics

Андрей Анатольевич Зализняк (1935–2017) был выдающимся советским и российским лингвистом и академиком РАН. Он занимался широким кругом проблем, начиная от словоизменения в русском языке и заканчивая древненовгородским диалектом.

И хотя А. А. Зализняк никогда не был и не считался «компьютерным лингвистом», его работы по русскому словоизменению легли в основу всех морфологических анализаторов для русского языка. А от морфологического анализа зависит работа поисковиков, машинных переводчиков и даже чатботов вроде «Алисы».

«Системный Блокъ» создал цикл из четырех статей, посвященных трудам и открытиям А. А. Зализняка.

Берестяные грамоты от раскопа до компьютера

А. А. Зализняк нашел существенное отличие северо-западных говоров от остальных, что привело к пересмотру уже сложившейся схемы диалектов Древней Руси. Источником сведений об этих говорах стали берестяные грамоты, первую из которых нашли в 1951 г.

Оказалось, что в X—XI вв. на территории восточного славянства членение было не таким, как можно представить на основании сегодняшнего разделения языков (великорусский, украинский, белорусский), а иным: северо-запад отличался от всех остальных говоров. Иными словами, существовала группа древненовгородских и древнепсковских диалектов и классическая форма древнерусского языка, объединявшая Киев, Суздаль, Ростов, будущую Москву и территорию Белоруссии. Это и были две главные составные части будущего русского языка.

https://sysblok.ru/nlp/berestjanye-gramoty-ot-raskopa-do-kompjutera-pamjati-a-a-zaliznjaka-chast-i/

«Слово о полку Игореве» как улика

Существует мнение, что «Слово о полку Игореве» написано не в XII веке, а несколькими веками позднее, то есть является стилизацией под древность, а не истинным памятником древнерусской словесности. А. А. Зализняк рассматривает проблему подлинности «Слова» с лингвистической точки зрения и последовательно доказывает невозможность никакой другой датировки, кроме XII века.

https://sysblok.ru/nlp/slovo-o-polku-igoreve-kak-ulika-pamjati-a-a-zaliznjaka-chast-ii/

Акцентуаторы

Русское ударение свободно и подвижно. А. А. Зализняк мечтал о программе, которая сможет расставлять ударения в тексте автоматически.

Магистры из НИУ ВШЭ воплотили его идею в жизнь и создали акцентуатор для русского языка sStress. Это автоматическая система, принимающая на вход текст на русском языке и расставляющая в нем ударения. В основе этого акцентуатора лежит рекуррентная нейронная сеть LSTM, обученная на акцентологическом подкорпусе Национального корпуса русского языка.

В качестве базы данных молодые ученые используют «Грамматический словарь русского языка» (1985) А. А. Зализняка, который насчитывает более 100 000 слов с указанным ударением (и ударной парадигмой). Второй источник — Транскрипции Русского национального корпуса (РНЦ) (Гришина, 2003). Разговорный корпус был собран из записей речи люди и стенограмм русских фильмов с расставленными ударениями.

https://sysblok.ru/nlp/akcentuatory-pamjati-a-a-zaliznjaka-chast-iii/

Морфология

Поисковики, умеющие обрабатывать русскоязычные запросы, а также навигаторы, голосовые команды и онлайн-переводчики, работающие с русским языком, появились бы на несколько лет позже, если бы не «Грамматический словарь русского языка» А. А. Зализняка — первое полное описание грамматических форм русского языка, по которому для каждого слова можно построить все его словоформы.

Словарь Зализняка лег в основу автоматического порождения всех словоизменительных форм в русском интернете. Его концепция используется для описания большинства русских слов в Викисловаре. Яндекс может не только корректно склонять и спрягать русские слова, но и строить гипотезы о том, как будет изменяться любое незнакомое системе слово.

https://sysblok.ru/nlp/morfologija-pamjati-a-a-zaliznjaka-chast-iv/

2.5K views13:25

Системный Блокъ

Цифровая филология 1910: как Андрей Белый вычислял отклонения ямба
#philology

Попытки применять точные методы в исследованиях стихотворений делались литературоведами задолго до возникновения компьютерных технологий и digital humanities. В начале XX века к точности в анализе поэтических текстов стремился русский поэт-символист Андрей Белый. Он одним из первых ввел в исследование стиха количественные методы.

Белый был не чужд математики. Он родился в семье декана физико-математического факультета Московского университета, и окончив гимназию, сам поступил на этот же факультет. Позднее, работая над теорией стиха, Андрей Белый решил охарактеризовать русский четырехстопный ямб методом, который сегодня назвали бы анализом данных. Он вручную проанализировал расстановку ударения в 16092 строках 27 отечественных поэтов.

Эволюция ямба

Для своего исследования Белый обратился к стихотворениям 27 отечественных поэтов, в которых доминирующим размером был четырехстопный ямб, и исследовал частотность и характеристику ускорений ямба в русской поэзии. Под ускорением Белый подразумевает наличие в стихотворении стопы, в которой есть лишний безударный слог — именно она и дает эффект ускорения, которое «слышит ухо». Пример ускорения на третьей стопе: «Чего-то ищет в небесах» (Тютчев).

Белый предлагает нам статистику по ускорениям на 596 строк у каждого поэта, отмечая частотность отклонений на той или иной стопе. Интересно, что правильный ямб составляет всего лишь 25% от всей выборки, а 75% приходится на ускорения от ямба. Как замечает Белый, именно через увеличение или уменьшение количества ускорений на той или иной стопе четырехстопный ямб и эволюционировал.

Всего Белый выделяет пять темпов, возможных при отклонении от ямба:
1. Наименьшее количество ускорений на первой стопе (13), максимальное на второй (139) и наименьшее количество ускорений на первой и третьей стопе одновременно (5) с максимальным на второй и третьей одновременно (11) было у Ломоносова;
2. К наибольшему количеству ускорений на первой стопе (46), максимальному на второй (139), наибольшему на первой и третьей одновременно (26) и наименьшему на второй и третьей стопе (1) пришел Державин;
3. Наименьшее количество отклонений на третьей стопе (230) демонстрирует Капнист;
4. Падение отклонений на второй стопе (33) и увеличение отклонений на третьей (313) показывает Батюшков;
5. Увеличение количества отклонений на второй и третьей стопах одновременно (44), много ускорений на второй стопе (52), и увеличение суммы ускорений первой стопы (99) замечаются у Жуковского.

Белый делает следующий вывод: беднота или, наоборот, обилие ускорений, во-первых, индивидуализирует стиль поэта и, во-вторых, реформирует четырехстопный ямб вообще, то есть задает те или иные «тренды» в написании стихотворений этим размером. Так главными его реформаторами оказываются Жуковский и Батюшков, но совсем не Пушкин. Пушкин только доводит начатую ими работу до конца: он повторяет сумму ускорений Батюшкова (33) и немного увеличивает ускорения третьей стопы (341) — так реформа завершается.

В русской поэзии первой половины XIX в., как замечает Белый, было стремление «увеличить до крайности ускорение первой стопы и уменьшить до крайности ускорение второй», которое проявилось в большей степени у Баратынского.

Белый также обнаружил, что отклонения от ямба образуют в стихотворениях различные геометрические фигуры, которые, вполне вероятно, могут сказать нам о содержании того или иного поэтического текста много нового. Об этом — в нашей статье: https://sysblok.ru/philology/cifrovaja-filologija-1910-kak-andrej-belyj-vychisljal-otklonenija-jamba/

Вячеслав Кутепов

3.6K views15:15

Системный Блокъ

Поделись наушником своим: как устроены рекомендации Spotify
#musicology #knowhow

Стриминг имеет две принципиально важные черты потребления: массовизация легальной покупки музыки и культура рекомендации. Нельзя сказать, что рекомендации — это идея исключительно стримингового сервиса Spotify. До этого идею рекомендации развивали и другие компании — Spotify просто удачно скомпилировала известные инструменты в систему и постоянно ее улучшает.

Рекомендательные инструменты Spotify

1. Пользователь «оценивает» пользователя

Первый метод по созданию рекомендаций — коллаборативная фильтрация (Collaborative Filtering). Про этот инструмент мы подробно рассказывали в другой нашей статье. Впервые его внедрили на Last.fm, а популяризировал Netflix. У этого американского сервиса видеостриминга метод строится на основе оценок, которые зрители ставят сериалам, фильмам и шоу.

У Spotify оценок нет — поэтому там рекомендации работают на основе косвенного фидбека — можно сказать, что пользователи оставляют оценки в виде метаданных: количество прослушиваний, лайк или пропуск трека (до тридцатой секунды), посещение страницы артиста, прослушивание альбома с песней и т. д.

На основе анализа метаданных высчитывается оценка, которая вкладывается в отдельную ячейку матрицы: по горизонтали — оценки одного из 286 миллионов пользователей (по данным на июль 2020 года), по вертикали — оценки одного трека (более 50 миллионов по заявлениям компании). Получается, что Spotify хранит 14,3 квадриллиона оценок!

Затем система высчитывает векторы пользователя и векторы отдельных треков. Чем ближе вектор трека к вектору пользователя, тем больше вероятность, что этот трек ему порекомендуют.

2. Нейросеть оценивает музыку

Второй метод аналитики — анализ самой музыки. Нейросеть оценивает энергичность треков, присутствие вокала, темп, тональность и так далее. Это позволяет создавать кластеры, которые примеряются на пользователя в комплексе.

Такой анализ важен при рассмотрении треков, которые невозможно оценить другими методами. Например, так анализируют треки начинающих исполнителей, которые слушают крайне мало людей, и еще меньше людей о них пишут.

В данном случае используется сверточная нейронная сеть. Ее задача — сжать объект, не потеряв при этом отношения между его элементами. В таком случае мы можем выявить не просто отношения между отдельно взятыми элементами, но и какую-либо общую тенденцию.

3. Нейросеть оценивает текст песни

Третий метод — анализ текста медиа. На серверах собираются тексты о музыкальных композициях, которые представлены на платформе. Затем с помощью инструментов NLP нейросеть анализирует, какими словами описывают те или иные песни в медиа. Полученные данные агрегируются, после чего вырабатывается система своеобразных тегов. Это не теги/хэштеги в привычном для нас twitter-понимании — «хэштег привязан к событию» —, а скорее бирки — «тег привязан к характеристике».

Например, музыку польской группы Behemoth блоггеры и музыкальные критики никогда в жизни не назовут милой группой — скорее там будут превалировать характеристики вроде «черный», «тяжелый», «эпатажный», «сатанинский» и т. д. Поэтому поляков не порекомендуют любителям Кэти Перри.

Хоумскрин с ИИ

Домашний экран вашего Spotify — это искусственный интеллект «Bandits for Recommendations as Treatments» (BaRT). Он работает на основе полок: одна полка — одна тематика. BaRT — хороший личный ассистент в подборе музыки, если вы долго слушаете музыку на одной полке. Также оценивается и продолжительность прослушивания одного трека. Меньше тридцати секунд не считается, после тридцатой, каждая новая идет треку «в актив», композиции наподобие этой будут чаще появляться в вашем плейлисте.

Алгоритм Spotify защищен от разового прослушивания — если вы включите «Happy Birthday to You» или один раз послушали «шум дождя» перед сном — это не повлияет на ваши рекомендации.

А о системе сбора и хранения данных Spotify — читайте в нашей статье: https://sysblok.ru/musicology/podelis-naushnikom-svoim-eshhe-raz-o-tom-kak-ustroeny-rekomendacii-spotify/

Артур Хисматулин

2.6K views16:03

About

Blog

Apps

Platform