Цифровой филолог (Даня Скоринкин)
1.84K subscribers
87 photos
1 file
64 links
Digital Humanities, количественные методы анализа текстов, вычислительная филология, компьютерная лингвистика, бытование текстов, языка и литературы в эпоху чат-гопоты, умных машин и безумных людей
Ранее известен как Ебаный DH
Ведёт Даня @skorinkin
加入频道
Завтра в 18:30 по Берлину / 19:30 по Москве у нас будет онлайн-доклад Агаты Холобут и Яна Рыбицкого (со-автор библиотеки stylo и специалист по стилометрии перевода) про количественный анализ того, как кинематограф меняет, адаптирует и трансформирует диалоги из литературного текста (на примере экранизаций “Гордости и предубеждения”), а также что происходит при их переводе на другие языки. Регистрация чтобы послушать доклад — по ссылке
Доклад будет на английском языке
Пропасть между интеллектуальностью и разумом (мета-пост в процессе искания себя)

Еду сейчас читать keynote в Варшаве и, как это часто бывает у меня в поездах, вместо работы думаю, как же жить и кем быть. Я люблю преподавать и хотел бы к этому вернуться в будущем когда кончится война. Но вопрос, который не дает мне покоя, — это как понять, что ты преподаешь не бессмысленную фигню. Которую преподаешь просто потому, что умеешь её и не умеешь другое.

Мне кажется, что пропасть между формальной интеллектуальностью человека (или иной сущности) и способностью создавать своей работой ценность для другого человека (которая мне и кажется реальной разумностью и реальной целью alignment-а с другим людьми) стала ну совсем гигантской. Вот по всем формальным критериям я имею полное право преподавать в каком-нибудь российском вузе. Я типа кандидат наук, у меня полный порядок с публикациями, по вышкинским меркам они даже превосходные (сообщают, что один мой коллега получает за нашу с ним статью некую “мега-надбавку”), меня шесть раз выбирали “лучшим преподавателем”… Но на самом деле я никогда не был так потерян, как сейчас, и совершенно не представляю, что из того что я умею реально могло бы понадобиться студентам, и уж точно не уверен, надо ли их этому чему-то учить.

Как странно жить в 2024 году однако
P.S. На фото Одер, разлившийся и серый как мои мысли
Вот люди настоящей гуманитарной наукой занимаются, не то что у нас… ни потрогать, ни посмотреть, ни людям показать
Когда мир был добрее, трава — зеленее, а DH — не таким ёбаным, у нас с коллегами в DH-центре Вышки было что-то типа игры в “русское бинго”. При поездке на любую международную DH-конферению нужно было дождаться на докладе упоминения а) Владимира Проппа и б) Михаила Бахтина. В расширенную версию бинго входят еще Юрий Лотман и Виктор Шкловский (это как бы DH фулл-хаус ♠️♣️♥️♦️), в королевскую — Борис Ярхо (флеш-рояль👑). Ну так вот на TEI конференции в Буэнос-Айресе, где я провожу эту неделю, Пропп уже есть! ✔️ 🥰
На этой неделе написал важный для меня и довольно личный текст — о том, как лингвисты строили Вавилонскую башню NLP в компании ABBYY.

Советую этот печальный лонгрид для употребления за вечерним чаем 🍂☕️ Для разбавления горечи досыпал туда мемасов с Хомским и запоздалых признаний в любви 💔
#не_про_dh

10 декабря — день рождения Всеобщей декларации прав человека (и мой), в связи с чем предлагаю пожертвовать денежек моему любимому фонду "Жизненный путь", который помогает людям с ментальными особенностями жить вне ПНИ: https://liferoute.org/donate

Или любой негосударственной организации, которая занимается гуманизацией нашего негуманного отечества.

Контент про DH скоро вернется, обещаю
Деанонимизация Z-доносчицы, стилометрия и корпусный анализ

Сегодня мой скромный труд на ниве популяризации Digital Humanities привел к тому, что о стилометрии написали Бибиси. Это большой материал о том, как Саша Архипова при моём участии (и участии еще десятка людей) выяснила, что авторка тысяч Z-доносов “Анна Васильевна Коробкова” — на самом деле молодой википедист-сталинист и фанат НКВД Иван Абатуров. Особо горжусь тем, что найденную мной в ВК цитату Вани Абатурова о том, как он хочет быть “ходячей прокуратурой”, взяли в заголовок.

Если кратко, то Абатурова сгубило тщеславие (решил сам написать о своем вымышленном альтер-эго Коробковой статью в Википедию и думал, что новый юзернейм “Аркадий2023” его спрячет) и набор характерных формул, которые он использовал в текстах под всеми именами. Если совсем честно, то гораздо полезнее стилометрии тут оказался филологический навык пристального чтения — и затем старый добрый корпусный анализ с поиском формульных конструкций при помощи регулярных выражений / поисковых шаблонов.

Конструкция, которая выдала Абатурова больше других, — “я (категорически) против любого/ой/ых [Х]”, где под Х в доносах чаще всего “нарушение закона”, а в других текстах Абатурова еще и “фальсификация истории”, “сепаратизм”, “массовые беспорядки”, “насилие” и т.д. Эту конструкцию, словно магическое заклинание-оберег, Абатуров особенно часто вставляет в тексты, адресуемые “во власть”, — доносы и обращения к депутатам. Там это практически обязательное вступление или заключение. Часто с удвоением, чтоб магия точно сработала. Но и у себя в ВК (который я обкачал и тоже исследовал как корпус) Ваня Абатуров иногда тоже так пишет.

Прикол в том, что формула очень редкая. На 160 млн словоупотреблений корпуса соцсетей НКРЯ конструкция “я (категорически) против любого/ой/ых” встретилась мне лишь 13 раз во всех вариантах. А на каких-то 35 тысяч словоупотреблений в текстах “Коробковой” — больше 30 раз! То есть частотность выше на несколько порядков. И у Абатурова тоже… А еще он зачем-то постоянно вставляет эту формулу в технические описания к своим правкам в википедии (там мой скриншот есть у Бибиси в тексте, посмотрите).

Также я скачал все 555 репортажей в викиновостях, которые написал Иван Абатуров (там есть очень смешные, он использует викиновости как книгу жалоб), и искал совпадения с языком текстов Коробковой в них. Например, там есть 223 употребления слова “мол” (вообще говоря не очень принятого в новостных текстах), причем стабильно без запятых вокруг. И именно так использует “мол” Коробкова (десятки раз). В викирепортажах парочки других авторов, которых я взял для сравнения, мол вообще отсутствует. Формула “(категорически) против любых [X]” в викирепортажах Абатурова тоже есть, хотя и не от первого лица, конечно.

В этом расследовании много и других доказательств, гораздо более весомых, чем совпадения речевого портрета и стилометрическая близость. Другие участники этого расследования нашли совпадения в модели фотоаппарата, указанной в метаданных фотографий, загруженных в википедию, совпадения в IP, c которого ходят письма Абатурова и Коробковой, а также подтверждения присутствия обоих персонажей на одних и тех же мероприятиях. А еще я, копаясь в текстах ВК Абатурова, нашел удивительные совпадения в рассказах Абатурова и Коробковой об их общем дедушке — “сапёре, участнике ВОВ и сексоте НКВД”. И дедушка этот (естественно, под фамилией Абатуров) находится на сайтах “Память народа” и “Бессмертный полк”.

Подробнее о лингвистической стороне этой истории я еще напишу чуть позже. А вот пост самой Саши Архиповой об этом расследовании. Кроме того мы с Сашей планируем рассказывать, как искали Коробкову, 29 декабря онлайн в 19 мск.

А пока просто надеюсь, что где-то в Екатеринбурге одному доносчику стало страшнее жить. Кстати, адрес его мне известен.
Кто я?
Сюда пришло много новых людей, напишу пост-знакомство. Меня зовут Даня Скоринкин, мне 35, я программирующий гуманитарий. Учился на компьютерного лингвиста в Вышке, работал в ABBYY, написал кандидатскую (10.02.21 «Прикладная и математическая лингвистика») у А.А. Бонч-Осмоловской по компьютерному моделированию системы персонажей Льва Толстого

Последние пару лет я работаю в университете Потсдама, а по выходным уже больше 6 лет делаю на добровольных началах Системный Блокъ (с командой таких же добровольцев). До 2022 работал в Вышке, преподавал Python для цифровых гуманитариев, количественный анализ текстов, корпусную лингвистику, data culture и всякое по мелочи

В этом канале я рассказываю о своих и чужих исследованиях в области Digital Humanities, о количественных методах анализа текстов, о вычислительной филологии, компьютерной лингвистике и вообще о жизни текстов, языка и литературы в эпоху Чат-гопоты, умных машин и безумных людей 🙄 А еще изредка о своей жизни в шкуре немецкого постдока🍻🥨
Как мы шли по «цифровым следам»👣 серийного доносчика

Расскажем вместе с Сашей Архиповой про «кейс Коробковой» уже в это воскресенье. В отличие от материала на BBC, тут будет именно с исследовательской 🔍🔬 перспективы:
Forwarded from (Не)занимательная антропология (Alexandra Arkhipova)
А.Архипова, Д. Скоринкин. Как найти доносчика научными методами: кто такая «Анна Васильевна Коробкова»

Онлайн-лекция, 29 декабря, 17.00 по Парижу, ссылка на ютьюб будет здесь.


НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ АЛЕКСАНДРОЙ СЕРГЕЕВНОЙ АРХИПОВОЙ, СОДЕРЖАЩЕЙСЯ В РЕЕСТРЕ ИНОСТРАННЫХ АГЕНТОВ ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА АЛЕКСАНДРЫ СЕРГЕЕВНЫ АРХИПОВОЙ, СОДЕРЖАЩЕЙСЯ В РЕЕСТРЕ ИНОСТРАННЫХ АГЕНТОВ 18+

Как многие из вас знают, только что BBC написало и также сделало видео про нашей с Даней Скоринкиным расследование, доказывающее, что "Анна Коробкова" и Иван Абатуров - одно и тоже лицо.

Но многое туда не вошло, например, какое отношение имеет эпос (что? Да!) к доносам, при чем тут базы данных, как проверить гипотезу о тождестве Абатурова и Коробковой.

Если еще короче - какие научные методы использовали для поиска "Коробковой" лингвист Даниил Скоринкин (вот потрясающий канал Дани) и ваша покорная слуга.

Если еще короче - зачем вообще нужны ученые. Приходите!

Непонятная картинка - это результат кластерного стилометрического анализа, показывающий, что статья о Коробковой написана самой "Коробковой".

Приходите на онлайн-лекцию в воскресенье 29 декабря, и мы расскажем увлекательные подробности.

29 декабря, 17.00 по Парижу, 18.00 по Иерусалиму, 19.00 по Москве.

Это площадка дружественного семинара "Языки психиатрии". Если вы хотите получить ссылку, пишите @annoory (особенно если вы в РФ и все заблокировано).

Но вообще будет идти стрим лекции на ютьюб (ютьюб-канал Языки психиатрии), а ссылка на ютьюб-стрим появится здесь в 15.00 по Парижу 29 декабря.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Вдогонку к предыдущему посту: иронично, что на скриншоте из Popular Science про стилометрический деанон Джоан Роулинг, который уже лет 8 гуляет по разным моим слайдам, написано буквально “how your four-grams may be undermining your anonymous erotica-writing career” — то есть как ваши 4-граммы могут подорвать вашу карьеру анонимного автора эротики. А в нашем случае 4-граммы же подрывают “карьеру анонимного доносчика” 🤣
Изгибы советских биографий в зеркалах электронных баз

По случайному совпадению ровно в тот же день, когда на BBC вышло расследование про Абатурова-Коробкову, в научном журнале с грозным названием Slavic Military Studies вышла наша с историком Ирой Махаловой статья (а точнее, Ирина статья со мной на подпевках) о реконструкции биографий советских граждан при помощи пересечения разных биографических баз. Эта статья — один из моих редких выходов с цифрогуманитарными методами в область исторических исследований.

С расследованием об Абатурове статью роднит то, что в обоих случаях как источник использовались базы участников ВОВ, оцифрованные Минобороны (как помнят внимательные читатели, у Абатурова там нашелся дедушка). Ну и, наверно, некоторый общий вывод о том, насколько живой человек (в отличие от лакированных парадных биографий) ситуативен, изменчив и адаптивен.

В нашем исследовании мы использовали разные базы по ВОВ для полуавтоматическиого поиска людей, чьи биографические факты не бьются друг с другом. И чьи полные биографии, будучи собранными воедино при содействии цифровых методов, совершенно не укладываются в шаблонно-героические нарративы гос-официоза о безупречных “героях” и ужасных “предателях”.

Вот представьте, что есть у вас в базе участников ВОВ некий человек с довольно редкой комбинацией имени, фамилии и отчества (скажем, Иосиф Алиевич Лебедь), а также с датой и местом рождения, ну и местом призыва на войну. И есть на него, например, донесение о безвозвратных потерях — погиб, мол, в октябре 1944, похоронен в такой-то чешской деревне в могиле номер 5 возле церкви (так и писали, время военное, не до бюрократии).

Вроде ничего необычного… пока в другой базе, на этот раз уже содержащей имена подсудимых на послевоенных процессах по коллаборационизму, не всплывает такой же точно Иосиф Алиевич Лебедь, найденный по полному совпадению ФИО и года рождения. Ну и совпадение места призыва уже не оставляет сомнений. И выясняется, что в 1949 году вполне живого Лебедя допрашивали о его службе в немецкой полиции во время оккупации в 1941 году. То есть в 1941 Лебедь был полицаем, а в 1944 после деоккупации был призван в РККА и успел повоевать на правильной стороне. И что особенно пикантно, в другой базе ВОВ обнаруживается, что уже в 1986 все тот же Иосиф Алиевич Лебедь получил Орден Отечественной войны II степени (их тогда на 40-летие Победы выдали всем дожившим ветеранам).

Таких биографий мы нашли не одну, а героическая Ира Махалова их подробно исследовала, прочитав протоколы допросов. Там есть, например, человек, который сначала был мобилизован в РККА, потом попал (либо сдался) в плен, стал полицаем, участвовал в расстреле евреев в оккупации, а потом после деоккупации снова был призван в РККА и успел получить боевую награду “За боевые заслуги” в феврале 1945-го…

В общем, как я уже сказал, главное, чему меня (дилетанта в области исторической науки) учит это исследование, — это ситуативность человека. Все меньше я верю в статичных “героев” и “злодеев”. Живая жизнь — всегда сложная динамика свойств личности и обстоятельств. Помнить об этом — неплохое лекарство от статичных черно-белых пропагандистских нарративов со всех сторон: и про “менталитет”, и про “орков”, и про “укронацистов”. Даже самые настоящие всамделишные нацисты были совершенно обычными людьми, которых совратили власть, страх, обида, жадность и самые пошлые бытовые обстоятельства. И на любой другой войне солдаты — обычные люди.
Скандальная слава соучастника деанонимизации доносчицы “Коробковой” продолжает преследовать вашего мамкиного лингвиста-расследователя 😅 Теперь вот я сходил с рассказом о стилометрии, атрибуции авторства, компьютерной филологии и компьютерной лингвистике в подкаст “Похажи язык” к замечательной Ксении Busy English Fox. Обсуждали:

— Что такое компьютерная лингвистика и почему ею часто занимаются вовсе не лингвисты🧑‍💻

— Чем занимаются программирующие литературоведы? 💻📚

— Как любовь к определённым предлогам помогла разгадать загадку из истории первых лет становления США🗽

— Почему у Сергея Лукьяненко все подряд “исполинское” 🪐 (реально, поищите в любом его тексте!)

— Почему старые методы атрибуции авторства через редкие конструкции и сочетания похожи на поиск родимых пятен, а современный стилометрический метод — на анализ ДНК.. 🔬🧬

— .. и чем же стилометрия все-таки отличается от анализа ДНК в худшую сторону (увы.. или ура?) 🤷

— Как доносчик Абатуров сам помог себя обнаружить 🎯

— Что “драйвило” Скоринкина и Архипову в поиске “Коробковой”

— Как в установлении истины помог пример великого лингвиста А.А. Зализняка 🎓

Слушайте на всех подкаст-платформах 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
(продолжение)

🚬 Атмосферные детали: и ChatGPT, и писатель вводят в рассказ похожие мелкие декорации: в сгенерированном рассказе тишину в университетской аудитории нарушает «лишь слегка вибрирующий шум кондиционера», а у Александра Сорге герои сидят на кухне, где «жужжит над столом одинокая лампочка». Похоже, такие детали а ля Дэвид Линч стали клишированными и их легко вынимают из общего «коллективного бессознательного» и люди, и нейросети.

Итого:
У писателя-человека получился емкий и погружающий в себя кусочек антиутопии, хотя и с шаблонными деталями. Нейросеть, в отличие от человека, не придумывает мир сама, она по умолчанию создает самый заурядный реалистичный сеттинг и конструирует его самыми стандартными литературными приемами: нарратив в третьем лице, прошедшее время и натужный хэппи энд в конце 🤡