Цифровой филолог (Даня Скоринкин)
1.84K subscribers
87 photos
1 file
64 links
Digital Humanities, количественные методы анализа текстов, вычислительная филология, компьютерная лингвистика, бытование текстов, языка и литературы в эпоху чат-гопоты, умных машин и безумных людей
Ранее известен как Ебаный DH
Ведёт Даня @skorinkin
加入频道
Please open Telegram to view this post
VIEW IN TELEGRAM
Обнаруженная мной параллель между “Твин Пиксом” (1990) и “Физиологией Петербурга” (1845) сегодня была подсвечена прекрасным каналом “Некраткие содержания”. А еще туда нативно вставили выпуск подкаста “Лига айвы”, где я рассказываю Борису Орехову про мои университеты и чем Потсдам отличается от Вышки. И “Содержания”, и “Лигу” всем рекомендую
Forwarded from Некраткие содержания 🎙 (Boris Orekhov)
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда мы готовили сегодняшний материал в Системном Блоке про удивительные экспонаты музейного Госкаталога РФ, меня совершенно покорила композиция из моржового клыка «В ожидании санрейса» 1967 года. Во-первых, это классная демонстрация ценности оцифровки, ведь чтобы увидеть этот экспонат вживую, нужно добраться (по воздуху или по воде) до самого восточного населённого пункта России — села Уэлен на Чукотке. А теперь вот он, доступен мне по клику мышки из середины Европы (ну ладно, с VPN, мы нынче недружественные 👹). Во-вторых, я был впечатлен подробностью описания экспоната в метаданных:

Подставка стоит на округленных четырех ножках на ней стоят фигуры из клыка моржа: три человека, три оленя, две нарты и собака. Слева направо стоит нарта на ней лежит ребенок, укутанный до головы, с левой стороны от нее сидит на коленях человек в национальной одежде, а впереди в обеих руках держит сумку – аптечку, впереди облокоченный об полозья лежит хорей. Впереди нарты лежит олень, ноги положив под себя, а передняя правая вытянута, голова повернута влево, по левую сторону вторые нарты. Возле нарт стоит человек в национальной одежде, ноги расставлены, левая рука поставлена возле лба и смотрит вдаль, в правой руке держит хорей. Рядом с ним стоит олень, высунув язык. Третьи олень лежит, ноги убрав под себя, голова развернута в сторону стоящего оленя. Собака лежит, голову повернув влево. На одной стороне отгравировано: сцена жизни тундровых чукчей: едущие с пассажирами две собачьи упряжки, а впереди их встречают три человека возле двух яранг. Вторая сторона: самолет, люди с носилками несут больного, две оленьи упряжки едут, две яранги и пастух пасет стадо.

Это ж надо было заморочиться с описанием… И ведь до ChatGPT 😅

А в третьих, просто посмотрите, как это тонко вырезано:
Please open Telegram to view this post
VIEW IN TELEGRAM
Корпусный тест Тьюринга и вежливые уши GPT

Постоянно вижу новости о том, как в научных статьях, рецензиях на статьи, деловых письмах и прочих “ответственных” текстах просвечивают белыми нитками языковые модели. Вот например на картинке (из этой статьи) статистика употребления некоторых типично GPT-шных слов в рецензиях на конференции ICLR. Вежливые академические прилагательные вроде meticulous или commendable внезапно становятся теми самыми “ушами”, которые торчат из текстов.

Так что пусть классификаторы пока плохо справляются с разделением отдельных текстов на сгенерированные и человеческие, но на уровне корпусов (т.е. больших массивов текстов) все видно. И меня это радует: корпусные методы вновь оказываются актуальными как вспомогательный инструмент в дивном новом мире языковых моделей (о чем уже как-то писала Таня @rybolos_channel).

Глядишь и стилометрия тоже пригодится — как вы помните, она, к примеру, отличает GPT-шные имитации писателей от настоящих текстов этих писателей (хотя эта задача легче).
P.S. Мир переходит на африканский английский?

Избыточно вежливый расшаркивающийся английский от GPT породил в твиттере дискуссию о том, насколько на стилистику языковых моделей повлияли особенности английского в Африке.

Вот например Пол Грэм получил какое-то интересное письмо с предложением, а потом увидел там конструкцию delve into и разочаровался, уверившись, что это ChatGPT. Дальше началась дискуссия (местами не вполне политкорректная), что такой вычурный английский характерен для Нигерии и других стран Африки, а еще для Индии. Ну а как известно, люди для дообучения моделей на человеческих инструкциях берутся не в Лондоне и не в Нью-Йорке..

Впрочем, с учетом демографии, переход на африканские варианты английского все равно дело времени 💯
5 коллекций данных для цифрового гуманитария

Интернет набит данными, но очень немногие датасеты сделаны гуманитариями и для гуманитариев. Собрал пять чисто гуманитарных источников данных, которые хорошо использовать в курсе анализа данных или программирования на DH-программах.

🎭 1. DraCor — корпуса и датасеты вокруг драматических текстов (с уклоном в network analysis, но не только). Один из очень немногих проектов, сумевших на базе “гуманитарного” стандарта TEI построить классную экосистему гуманитарных данных. Самые приятные данные дракора — это метаданные для каждого корпуса, которые вы можете скачать прямо на страничке корпуса, например, вот табличка для русского корпуса: https://dracor.org/api/v1/corpora/rus/metadata/csv Тут и классические метаданые вроде дат написания и публикации, и сетевые вроде плотности социальной сети в пьесе, и например соотношение мужской и женской речи…

Еще для каждой отдельной пьесы можно скачать сетевые данные (в gexf/csv/gml), речь персонажей, сценические ремарки… Ну и полную разметку в TEI, из которой все эти данные произрастают.

✒️ 2. Репозиторий открытых данных по русской литературе и фольклору — проект Цифровой лабы Пушкинского дома (ИРЛИ РАН), где цифровые филологи и не только публикуют датасеты и (иногда) код к своим исследованиям. Своего рода гуманитарный papers with code. Вот, например, данные и код к статье Кирилла Маслинского о том, какие животные чаще встречаются в каких жанрах детской литературе.

А еще там публикует новые датасеты сам ПушДом. Многие из них называются очень романтично. Скажем, Забытые романы русских писателей из фондов Пушкинского Дома (1857–1917)… Датасет с таким названием нужно обрабатывать под звуки романса “Отцвели уж давно хризантемы в саду”🍂

📚 3. European Literary Text Collection (ELTeC) — корпуса европейских романов, собранные с прицелом на репрезентативность и сопоставимость друг с другом. Целью было найти для каждой европейской литературы по 100 романов в диапазоне 1840-1920, чтобы они покрывали период более-менее равномерно, чтобы были представлены не только писатели-мужчины, чтобы бли длиной не менее 10000 слов и т.д. Не для всех корпусов это удалось, а русский корпус там совсем странный, но тем не менее — одна из немногих попыток сделать датасет, пригодный для “компаративистики” by design.

🏛 4. Госкаталог Музейного фонда РФсвалка датасет по всему, что оцифровано во всех музеях России. Не так часто в нашей области можно найти наборы данных, где записей не тысячи, но миллионы. Качество очень разное, репрезентативность тоже под вопросом, но жемчужин в этом океане данных тоже море. Одну я здесь уже описывал.

🗺 5. Геоданные DHCLOUD. Тут лежат литературные карты в geojson, сделанные студентами гуманитарного факультета Вышки под руководством Бориса Орехова. Картографированы самые разные тексты: от маршрута Афанасия Никитина и до Приключений Капитана Врунгеля 🐳
Please open Telegram to view this post
VIEW IN TELEGRAM
Последние два дня был на конференции Conference of Computational Literary Studies (даже почейрил одну секцию). CCLS всегда короткая, но очень качественная. В этом году было всего 9 докладов, но каждое исследование стоит внимания.

В частности, интересная работа про измерение литературной репутации по метрикам экспертной престижности vs crowd-based популярности vs представленности в библиотеках (ссылка) и про контраст массовой и элитарной литературы со Стивеном Кингом как точкой отсчета (ссылка). А еще прикольное исследование про разную географию в американском фикшне и нон-фикшне (в фикшене география очень маленькая, сжатая и неглобальная относительно нон-фикшена, поэтому статья называется “Small Worlds. Measuring the Mobility of Characters in English-Language Fiction”, но это не единственный вывод там).

Все статьи с конференции уже доступны как препринты в предконференционном сборнике. Вот тут одной пдф-кой, а тут в программе — отдельными.

После конференции они пройдут еще одну стадию ревью и выйдут в прекрасном журнале JCLS (с которого стоит брать пример всем журналам в идеальном мире)
P.S. смешное фото с той секции CCLS, которую я чейрил. Из-за задержки зума виртуальный Даня жестикулирует не так как реальный и нас как будто двое. Я чего-то затираю аудитории, а виртуальный Даня в это время показывает на меня и говорит «нет вы поглядите как он руками размахался»
Завтра в 18:30 по Берлину / 19:30 по Москве у нас будет онлайн-доклад Агаты Холобут и Яна Рыбицкого (со-автор библиотеки stylo и специалист по стилометрии перевода) про количественный анализ того, как кинематограф меняет, адаптирует и трансформирует диалоги из литературного текста (на примере экранизаций “Гордости и предубеждения”), а также что происходит при их переводе на другие языки. Регистрация чтобы послушать доклад — по ссылке
Доклад будет на английском языке
Пропасть между интеллектуальностью и разумом (мета-пост в процессе искания себя)

Еду сейчас читать keynote в Варшаве и, как это часто бывает у меня в поездах, вместо работы думаю, как же жить и кем быть. Я люблю преподавать и хотел бы к этому вернуться в будущем когда кончится война. Но вопрос, который не дает мне покоя, — это как понять, что ты преподаешь не бессмысленную фигню. Которую преподаешь просто потому, что умеешь её и не умеешь другое.

Мне кажется, что пропасть между формальной интеллектуальностью человека (или иной сущности) и способностью создавать своей работой ценность для другого человека (которая мне и кажется реальной разумностью и реальной целью alignment-а с другим людьми) стала ну совсем гигантской. Вот по всем формальным критериям я имею полное право преподавать в каком-нибудь российском вузе. Я типа кандидат наук, у меня полный порядок с публикациями, по вышкинским меркам они даже превосходные (сообщают, что один мой коллега получает за нашу с ним статью некую “мега-надбавку”), меня шесть раз выбирали “лучшим преподавателем”… Но на самом деле я никогда не был так потерян, как сейчас, и совершенно не представляю, что из того что я умею реально могло бы понадобиться студентам, и уж точно не уверен, надо ли их этому чему-то учить.

Как странно жить в 2024 году однако
P.S. На фото Одер, разлившийся и серый как мои мысли
Вот люди настоящей гуманитарной наукой занимаются, не то что у нас… ни потрогать, ни посмотреть, ни людям показать
Когда мир был добрее, трава — зеленее, а DH — не таким ёбаным, у нас с коллегами в DH-центре Вышки было что-то типа игры в “русское бинго”. При поездке на любую международную DH-конферению нужно было дождаться на докладе упоминения а) Владимира Проппа и б) Михаила Бахтина. В расширенную версию бинго входят еще Юрий Лотман и Виктор Шкловский (это как бы DH фулл-хаус ♠️♣️♥️♦️), в королевскую — Борис Ярхо (флеш-рояль👑). Ну так вот на TEI конференции в Буэнос-Айресе, где я провожу эту неделю, Пропп уже есть! ✔️ 🥰
На этой неделе написал важный для меня и довольно личный текст — о том, как лингвисты строили Вавилонскую башню NLP в компании ABBYY.

Советую этот печальный лонгрид для употребления за вечерним чаем 🍂☕️ Для разбавления горечи досыпал туда мемасов с Хомским и запоздалых признаний в любви 💔
#не_про_dh

10 декабря — день рождения Всеобщей декларации прав человека (и мой), в связи с чем предлагаю пожертвовать денежек моему любимому фонду "Жизненный путь", который помогает людям с ментальными особенностями жить вне ПНИ: https://liferoute.org/donate

Или любой негосударственной организации, которая занимается гуманизацией нашего негуманного отечества.

Контент про DH скоро вернется, обещаю
Деанонимизация Z-доносчицы, стилометрия и корпусный анализ

Сегодня мой скромный труд на ниве популяризации Digital Humanities привел к тому, что о стилометрии написали Бибиси. Это большой материал о том, как Саша Архипова при моём участии (и участии еще десятка людей) выяснила, что авторка тысяч Z-доносов “Анна Васильевна Коробкова” — на самом деле молодой википедист-сталинист и фанат НКВД Иван Абатуров. Особо горжусь тем, что найденную мной в ВК цитату Вани Абатурова о том, как он хочет быть “ходячей прокуратурой”, взяли в заголовок.

Если кратко, то Абатурова сгубило тщеславие (решил сам написать о своем вымышленном альтер-эго Коробковой статью в Википедию и думал, что новый юзернейм “Аркадий2023” его спрячет) и набор характерных формул, которые он использовал в текстах под всеми именами. Если совсем честно, то гораздо полезнее стилометрии тут оказался филологический навык пристального чтения — и затем старый добрый корпусный анализ с поиском формульных конструкций при помощи регулярных выражений / поисковых шаблонов.

Конструкция, которая выдала Абатурова больше других, — “я (категорически) против любого/ой/ых [Х]”, где под Х в доносах чаще всего “нарушение закона”, а в других текстах Абатурова еще и “фальсификация истории”, “сепаратизм”, “массовые беспорядки”, “насилие” и т.д. Эту конструкцию, словно магическое заклинание-оберег, Абатуров особенно часто вставляет в тексты, адресуемые “во власть”, — доносы и обращения к депутатам. Там это практически обязательное вступление или заключение. Часто с удвоением, чтоб магия точно сработала. Но и у себя в ВК (который я обкачал и тоже исследовал как корпус) Ваня Абатуров иногда тоже так пишет.

Прикол в том, что формула очень редкая. На 160 млн словоупотреблений корпуса соцсетей НКРЯ конструкция “я (категорически) против любого/ой/ых” встретилась мне лишь 13 раз во всех вариантах. А на каких-то 35 тысяч словоупотреблений в текстах “Коробковой” — больше 30 раз! То есть частотность выше на несколько порядков. И у Абатурова тоже… А еще он зачем-то постоянно вставляет эту формулу в технические описания к своим правкам в википедии (там мой скриншот есть у Бибиси в тексте, посмотрите).

Также я скачал все 555 репортажей в викиновостях, которые написал Иван Абатуров (там есть очень смешные, он использует викиновости как книгу жалоб), и искал совпадения с языком текстов Коробковой в них. Например, там есть 223 употребления слова “мол” (вообще говоря не очень принятого в новостных текстах), причем стабильно без запятых вокруг. И именно так использует “мол” Коробкова (десятки раз). В викирепортажах парочки других авторов, которых я взял для сравнения, мол вообще отсутствует. Формула “(категорически) против любых [X]” в викирепортажах Абатурова тоже есть, хотя и не от первого лица, конечно.

В этом расследовании много и других доказательств, гораздо более весомых, чем совпадения речевого портрета и стилометрическая близость. Другие участники этого расследования нашли совпадения в модели фотоаппарата, указанной в метаданных фотографий, загруженных в википедию, совпадения в IP, c которого ходят письма Абатурова и Коробковой, а также подтверждения присутствия обоих персонажей на одних и тех же мероприятиях. А еще я, копаясь в текстах ВК Абатурова, нашел удивительные совпадения в рассказах Абатурова и Коробковой об их общем дедушке — “сапёре, участнике ВОВ и сексоте НКВД”. И дедушка этот (естественно, под фамилией Абатуров) находится на сайтах “Память народа” и “Бессмертный полк”.

Подробнее о лингвистической стороне этой истории я еще напишу чуть позже. А вот пост самой Саши Архиповой об этом расследовании. Кроме того мы с Сашей планируем рассказывать, как искали Коробкову, 29 декабря онлайн в 19 мск.

А пока просто надеюсь, что где-то в Екатеринбурге одному доносчику стало страшнее жить. Кстати, адрес его мне известен.
Кто я?
Сюда пришло много новых людей, напишу пост-знакомство. Меня зовут Даня Скоринкин, мне 35, я программирующий гуманитарий. Учился на компьютерного лингвиста в Вышке, работал в ABBYY, написал кандидатскую (10.02.21 «Прикладная и математическая лингвистика») у А.А. Бонч-Осмоловской по компьютерному моделированию системы персонажей Льва Толстого

Последние пару лет я работаю в университете Потсдама, а по выходным уже больше 6 лет делаю на добровольных началах Системный Блокъ (с командой таких же добровольцев). До 2022 работал в Вышке, преподавал Python для цифровых гуманитариев, количественный анализ текстов, корпусную лингвистику, data culture и всякое по мелочи

В этом канале я рассказываю о своих и чужих исследованиях в области Digital Humanities, о количественных методах анализа текстов, о вычислительной филологии, компьютерной лингвистике и вообще о жизни текстов, языка и литературы в эпоху Чат-гопоты, умных машин и безумных людей 🙄 А еще изредка о своей жизни в шкуре немецкого постдока🍻🥨
Как мы шли по «цифровым следам»👣 серийного доносчика

Расскажем вместе с Сашей Архиповой про «кейс Коробковой» уже в это воскресенье. В отличие от материала на BBC, тут будет именно с исследовательской 🔍🔬 перспективы: