Системный Блокъ
10.8K subscribers
241 photos
2 videos
1 file
873 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
加入频道
Мы уже ранее затрагивали тему переноса стиля с одного изображения на другое. Но что если попытаться развернуть этот процесс вспять и заглянуть в черный ящик? Что скрывают скрытые слои нейросети? Вам и не снилось...

https://telegra.ph/Koshmarnye-sny-nejrosetej-09-30
Наверное, всем знакома ситуация, когда при попытке сделать групповое фото из миллиона дублей не получается ни один -- кто-нибудь обязательно закроет глаза! Или когда вы просите вас сфотографировать, а потом обнаруживаете, что моргнули -- и все, кадр потерян! Но, кажется, скоро искусственный интеллект избавит нас от расстройств из-за неудавшихся фотографий.

https://telegra.ph/Podnimite-mne-veki-09-23
В "Толковом словаре живого великорусского языка" В.И. Даля 200 тысяч слов. В "Большом академическом словаре" -- 150 тысяч. В "Малом академическом словаре" -- 90 тысяч. В "Словаре языка Пушкина" -- 21 тысяча. А сколько слов в вашем арсенале?

Чтобы проверить это, вовсе не нужно открывать Даля или БАС и отмечать все знакомые слова: хитрому алгоритму нужно всего лишь 15-20 вопросов, чтобы оценить ваш словарный запас. А заодно то, насколько честно вы отвечали. 😏

https://telegra.ph/Defenestraciya-Ne-ne-slyshal-09-23
Задумывались ли вы о том, какие города и страны чаще всего упоминаются в стихах русских поэтов? А вот исследователи Борис Орехов и Елизавета Кузьменко задумались — и проанализировали поэтический корпус размером в 11 миллионов слов. Где жили лирические герои на протяжении трех веков? Как путешествовали? Куда устремлялись в мечтах? Оказывается, наиболее значимые места на поэтической карте можно определить с помощью нехитрых подсчетов.

https://telegra.ph/ZHit-i-umeret-v-Parizhe-300-let-russkoj-poehzii-na-karte-09-01
​​Сегодня мы продолжим разговор о цифровом литературоведении и обратимся к сетевому анализу, или анализу социальных графов. Но граф — это что-то страшное из математики, а социальные сети — это Вконтакте и Facebook! При чем здесь литературоведение?

Социальные сети бывают не только реальные, но и вымышленные. Например, не так уж сложно себе представить фейсбук Евгения Онегина: как он сначала френдит весь петербургский «свет», потом всех удаляет, потом ставит лайки Ольге Лариной, а сам тем временем разглядывает фото в профиле Татьяны. Тут Ленский ставит «Возмутительно», пишет злой коммент — и заверте...

Изучать соцсети художественных персонажей можно теми же способами, что и реальные. Социологи давно применяют теорию графов и методы анализа сетей, чтобы выделять сообщества, находить в них «центры влияния» и лидеров мнений, анализировать пути распространения информации и власти. С недавних пор тем же занялись и литературоведы — и это уже дало много интересных результатов. Например, известный «цифровой литературовед» Франко Моретти нашел зону смерти в социальной сети «Гамлета»: там умирают только те, кто одновременно тесно связан с самим Гамлетом и с его злодеем-дядей, королем Клавдием. Этот факт можно было вывести и без сетевого анализа, но он не приходил в голову никому до тех пор, пока сеть диалогов персонажей «Гамлета» не была построена и визуализирована.

На русском материале интересные результаты дал анализ произведений А. С. Пушкина и Л. Н. Толстого. Например, в «Войне и мире» структура сетей совпадает с сюжетной динамикой: они плотные в мирное время, разрозненные в военное; Ростовы образуют плотное сообщество, а Курагины (о которых литературоведы давно пишут, что они «лишены семейной поэзии»), никакого сообщества не образуют. А в пушкинском «Борисе Годунове» удалось выявить особого персонажа-посланника, который — и это явно не совпадение — носит фамилию автора. Гаврилу Пушкина никто не назовет главным героем, но сетевые метрики показывают, что он самый главный «промежуточный» персонаж, через которого проходит коммуникация. И это правда так. Сейчас та же команда «цифровых филологов» из НИУ ВШЭ ведет уже автоматический поиск похожих персонажей (агентов, посланников, шпионов) в других пьесах при помощи сетевого анализа — и кое-что уже нашла. Об этом в следующих выпусках.
Что читать современному лингвисту/филологу?

Телеграм стал площадкой для нишевых сообществ с уникальным контентом. Мы будем рассказывать о каналах, которые читаем сами. В нашем первом обзоре — четыре канала о лингвистике, четыре канала о литературе и два — о цифровых гуманитарных исследованиях.

@linguistique_sur_un_genouЛингвистика на коленке
"Лингвист-дилетант" Ксения пишет, в основном, о компьютерной лингвистике и романских языках. Но здесь не только обзоры лучших курсов по NLP и интересные лингвистические факты, здесь ещё и истории из жизни о собеседованиях на иностранном языке, переводах и французском лингвистическом быте.

@linguisticmadnessLinguistic Madness
Канал о лингвистике и языках: ссылки, статьи, мнения, факты. Что если переделать "Иронию судьбы" на бандитский манер? Как выглядят граффити для незрячих? Что такое ирландский перфект в английском? Кто говорит на аэрском? И прочие лингвистические безумства.

@vooioxуЩербы
Увлекательные рассказы о том, откуда взялось слово "чувак", что такое гражданский брак и можно ли говорить звОнит. В общем, вся правда о русском языке, которую скрывали от нас в школе.

@word4powerWord4Power
Канал убежденного последователя святого Иеронима о переводах и лингвистике. Будни синхрониста, полезные переводчику книжки и статьи, лингвистические откровения о русском, украинском, английском и французском. Где еще вы узнаете, как делаются субтитры к фильмам и театральным постановкам и в чем разница между Yob's comma и Oxford comma?

@theodstavecО литературе и около неё
Команда этого проекта, название которого в переводе с чешского означает "абзац", делает переводы статей, эссе, рецензий и заметок мировых ресурсов о литературе, чтобы они стали доступнее русскоязычному читателю. А ещё там можно опубликовать свою литературоведческую статью.

@bookngrillКниги жарь
Канал студента первой магистратуры Creative Writing в России. Новости современной литературы, советы начинающим писателям, литературоведческий ликбез и просто образец хорошего текста.

@sashaandleoСаша и Лев
Дайджест литературных новостей со всего мира — о книжных фестивалях, экранизациях, встречах с писателями, литературных премиях.

@words_and_moneyСлова и деньги
Про книги из электронов и из бумаги, деньги из книг, книги без денег и всякое прочее. Издательства, книжные ярмарки, нелитературная сторона мира литературы. По мотивам «Слов и денег» Андре Шиффрина.

@Sense_catcherБиблиотечная крыса
Авторский канал о книгах и чтении в цифровую эпоху, "чердак цифрового литературоведа". Здесь и рассуждения о судьбах литературы и ее исследователей, и размышления о современном книгоиздании, и личные впечаления от выездных школ и курсов по Digital Humanities, и рассказы об интересных проектах в современной филологии.

@sysblokСистемный Блокъ
Канал о переходе культуры в цифру и применении технологий в гуманитарных науках и искусстве. Как лингвисты ловят маньяков и какие сны снятся нейросетям? Что скрывают от нас соцсети персонажей? Может ли искусственный интеллект залипнуть у телевизора? Системный Блокъ — это современный Вергилий, который проведет вас через девять кругов Big Data.

Хотите рассказать нам о своем любимом сообществе? Мы уже собираем продолжение. Пишите.
В одном из прошлых постов мы рассказывали, что такое сетевой анализ литературных произведений. Но как применить это в исследованиях? Цифровые филологи из Германии знают ответ! Оказывается, комедии и трагедии отличаются по структуре социальной сети геров, так что можно определить жанр произведения, просто взглянув на граф.

https://telegra.ph/Drama-v-seti-09-01
Как вы думаете, что скрывается за загадочным термином "N-граммы"? Программы? Нет, все не так уж страшно. N-граммы — это такие хитрые последовательности звуков, слогов, слов или букв и они очень важны для компьютерной лингвистики. В этой статье мы расскажем, как они устроены и чем помогают при автоматической обработке текста.

https://telegra.ph/N-grammy-09-01
За несколько тысяч лет нарратив претерпел значительные изменения, эволюционировав от устной истории до ветвящихся сценариев компьютерных игр через стадии классического романа и постмодернистского текста-калейдоскопа.

Впрочем, цифровой нарратив не ограничивается компьютерными играми – это любой интерактивный мультисенсорный текст, который нельзя превратить в печатную версию без существенных потерь. Итак, в сегодняшней статье мы рассказываем об особенностях и формах цифрового нарратива.

https://telegra.ph/Multinarrativ-programmiruemaya-istoriya-10-21
Нейросеть научилась диагностировать депрессию

​​Исследователи из Массачуссетского технологического института (MIT) разработали алгоритм диагностики депрессии на основе нейросети. Модель ставит диагноз по аудиозаписям и текстовыми расшифровкам интервью с пациентами, обнаруживая в речи специфические «депрессивные паттерны».

Ранее машинное обучение уже применялось для помощи психологам в диагностике. Однако прежде алгоритмы оценивали конкретные ответы на конкретные вопросы, что накладывало сильные ограничения на применимость. Новый алгоритм позволяет анализировать произвольные разговоры пациента.

Исследователи надеются, что в будущем их разработка может быть встроена в мобильные приложения, которые следят за здоровьем. Тогда первые признаки депрессии можно будет отловить задолго до того, как человек соберется ко врачу или в форточку.

Подробнее узнать о нейросети-психологе можно тут.

#neuroscience #sysblok
В последнее время тема искусственного интеллекта стала очень популярной. Сложно поверить, но его история началась почти 100 лет назад! За это время он прошел немало эволюционных этапов, от идеи «Россумских универсальных роботов» Карела Чапека до самообучающихся нейросетей.

Сегодня мы поговорим о юности и двух «зимах» искуственного интеллекта, об изобретении теста Тьюринга и об экспертных системах.

https://telegra.ph/Kratkaya-istoriya-iskusstvennogo-intellekta-chast-I-11-05
Вчера мы писали о ранних этапах эволюции искусственного интеллекта, а теперь обратимся к современности и посмотрим, что такое Deep Blue и Deep Mind, каких результатов достиг искусственный интеллект в XXI веке и в каком направлении он будет развиваться в будущем.

https://telegra.ph/Kratkaya-istoriya-iskusstvennogo-intellekta-chast-II-11-05
В двух предыдущих статьях мы рассказывали об истории искусственного интеллекта, а теперь перейдём непосредственно к нейронным сетям — первой технологии, которая действительно напоминает интеллект.

Нейросети порождают никогда до этого не существовавшие слова и тексты, пишут картины, успешно управляют беспилотными машинами в незнакомой местности, распознают объекты на снимках гораздо точнее человека, а также видят в данных сложные закономерности.

Как устроены эти алгоритмы? Что такое искусственные нейроны и чем они отличаются от настоящих? И кто же все-таки победит: мозг или компьютер?

#knowhow #sysblok

https://telegra.ph/Mozg-protiv-kompyutera-11-05
​​Нагугли мелодию: поисковик для музыкантов

IncipitSearch — метапоисковик, который умеет искать по размеченным нотным текстам, размещенным в открытом доступе. Для поиска нужно при помощи виртуальной клавиатуры фортепиано ввести начальную фразу музыкального произведения — так называемый инципит.

Впервые идея создания человеко- и машиночитаемого формата, который бы позволял искать произведения по начальным звукам мелодии, возникла еще в 1960-е годы. Тогда в помощь музыкальным библиотекарям был создан Plaine & Easie Code, который переводит нотный текст в комбинацию цифр и букв.

IncipitSearch опирается на Plaine & Easie, однако ставит своей задачей пойти дальше — например, научиться читать другие форматы, такие как abc notation и MEI, о котором мы уже писали.

К настоящему моменту IncipitSearch позволяет искать по инципитам музыкальных произведений, находящихся в следующих каталогах: Полное собрание сочинений Кристофа Виллибальда Глюка (Christoph Willibald Gluck — Sämtliche Werke), Каталог Национальной библиотечной службы Италии (SBN OPAC), Международный каталог музыкальных источников (RISM OPAC) и выборочные данные из Каталога симфоний издательства Breitkopf за 1762 год.

#musicology #sysblok
Роботы научились обыгрывать людей в го, но задача освоить человеческий язык, вести дискуссии и убеждать долгое время оставалась не по зубам искусственному интеллекту.

Недавно мы рассказывали о роботе, который дважды победил человека в дебатах. Теперь разберемся, как машина научилась быть убедительным оппонентом.

#nlp #sysblok

https://telegra.ph/ZHeleznye-argumenty-kak-ustroen-Project-Debator-11-05
Выходные — отличный повод прогуляться! Если вам не хочется бродить по городу бесцельно, можно воспользоваться Sight Safari — сервисом, который умеет прокладывать пешие маршруты так, чтобы пешеход обязательно увидел какую-нибудь местную достопримечательность.

Достопримечательности могут быть как известными на весь мир, как Медный Всадник, так и мемориальной доской, граффити или зениткой в парке. Алгоритм позволяет выбрать золотую середину между кратчайшим пешим маршрутом и насыщенным туром по всем близлежащим возможным интересным местам.

Сервис создан одним единственным человеком на основе геосервиса Open Street Map и абсолютно бесплатен. Только представьте, сколько крутых вещей позволяют сделать открытые данные и немного программирования!

#urban #sysblok

https://telegra.ph/Peshkom--s-umom-11-05
​​Жуткие видения робота-психопата

Нейросети на пике хайпа считают чем-то вроде магии. Но на самом деле они, как и всякое машинное обучение, всего лишь алгоритм, который умеет обобщать данные. Именно поэтому так важно, ЧТО за данные поступают на вход... Отличный способ убедиться в этом — познакомиться с Норманом из Массачуссетского технологического института.

Норман — это нейросеть, порождающая текстовые подписи к картинкам. Только обучена она не на обычных данных, а на одном известном сабреддите, посвященном теме смерти, убийств, расчленёнки и прочим мрачным вещам. Назван Норман в честь героя фильма Хичкока «Психо» — маньяка Нормана Бейтса.

Психологическая травма, которую нанесли нейросети её жестокие создатели, видна невооруженным глазом. Для этого достаточно подвергнуть алгоритм старому доброму психологическому тесту Роршаха. Во время теста пациенту показывают чернильные кляксы и просят описать возникающие образы и ассоциации. Считается, что таким образом можно определять эмоциональное состояние и диагностировать некоторые психические отклонения.

Там, где обычный алгоритм видит «стаю птиц», Норман обнаруживает «казнь человека на электрическом стуле»; вместо «пары людей, стоящих рядом» — «разбившаяся на стройке беременная женщина», вместо «черно-белого фото бейсбольной перчатки» — прилюдный расстрел из пулемета, а вместо человека, держащего зонт под дождем — убийство мужчины «на глазах у его кричащей жены».

А наша самая любимая подпись от Нормана — «человека затягивает в миксер для муки». Нормальная нейросеть видит там маленькую птичку.

Посмотреть все подписи можно тут.
​​Нейросеть-коп раскусит всех

В последние годы в Испании был зафиксирован рост преступлений, связанных с ложными обвинениями. Поскольку это явление создает лишнюю нагрузку на правоохранительные органы, с ним пытаются бороться самыми разными способами. Группа исследователей из Испании разработала для этой цели систему VeriPol, способную проанализировать заявление о преступлении и с высокой степенью точности определить, является ли оно правдой.

«В частности, мы создали VeriPol для краж, хищений, ограблений, сопряженных с насилием и запугиванием свидетелей, поскольку в последние годы возросло число ложных обвинений именно в данной категории преступлений», — уточняет Федерико Либераторе, один из исследователей.

VeriPol представляет собой нейросеть, которую обучают на двух корпусах заявлений о кражах — истинных и ложных. Она выявляет наиболее характерные для каждого из них особенности построения фразы. В 2015 году, например, системе предъявили 1122 заявления (534 истинных и 588 ложных) из уже закрытых дел — только тех, в которых либо преступник был задержан, либо заявитель признался во лжи.

Идея принадлежит инспектору Мигелю Камачо, специалисту в области математики и статистики. Еще в 2012 году он предположил, что искусственный интеллект можно использовать для автоматического выявления маркеров, указывающих на истинность или ложность утверждений. Хотя каждый считает свою ложь уникальной, на самом деле это не так — и нейросеть с легкостью найдет в ложных обвинениях соответствующие паттерны.

Правдивые показания зачастую изобилуют подробностями, тогда как лгун старается их избежать, чтобы потом в них не запутаться. Поэтому одним из наиболее ярких маркеров лжи VeriPol считает дату. Лгун скорее скажет, что преступление имело место «несколько дней назад», «в какой-то день» или «два или три дня назад», а не «вчера» или «в четверг». Заявление с большой долей вероятности оказывается ложью, если заявитель утверждает, что на него напали «сзади» или «со спины» — так он избавляет себя от необходимости описывать детали. Нейросеть выяснила, что выдуманные нападения чаще всего совершают люди «в черном» и что в ложных показаниях чаще, чем в правдивых, встречаются слова «надежный», «адвокат», «мобильный», «айфон», «компания» или «контракт».

VeriPol анализирует также наиболее популярные грамматические и синтаксические средства. Личные и указательные местоимения, а также глаголы «быть» и «находиться» чаще появляются в правдивых показаниях. В этом случае заявитель охотнее рассказывает о том, как произошло преступление, а также говорит о своем «взаимодействии» с преступником. В ложных свидетельствах, наоборот, преобладает неопределенность. Фразы с наречием «едва» — к примеру, «едва видел» или «едва помню», — да и отрицания вроде «не слышал», «не узнал», по статистике, часто указывают на ложь.

Конечно, все приведенные языковые средства только в определенном контексте могут указывать на вероятность лжи. Никто не обвинит человека, который правда не запомнил или не рассмотрел нападавшего. Поэтому VeriPol — это всего лишь один из инструментов в распоряжении правоохранительных органов. «Система напоминает старика-полицейского с колоссальным опытом работы, который просто помогает полиции, указывая, что ему кажется правдой, а что — ложью», — говорит исследователь Лара Кихано.

Проект стартовал в 2014 году, а летом 2017-го VeriPol протестировали сотрудники Национального полицейского корпуса Испании. Тогда было установлено, что система с 91-процентной точностью способна распознать ложь, тогда как эксперту это удается в 75% случаев.

Это первая подобная система, получившая от властей официальное разрешение на использование. В ближайшие месяцы VeriPol планируют внедрить на полицейских участках по всей Испании, потом ее будут адаптировать для других преступлений.

Почитать про исследование по-испански можно здесь.