Цифровой филолог (Даня Скоринкин)
1.84K subscribers
87 photos
1 file
64 links
Digital Humanities, количественные методы анализа текстов, вычислительная филология, компьютерная лингвистика, бытование текстов, языка и литературы в эпоху чат-гопоты, умных машин и безумных людей
Ранее известен как Ебаный DH
Ведёт Даня @skorinkin
加入频道
Муж, он же Стива, он же Степан Аркадьевич

Это GPT-4 размечает и идентифицирует персонажей в русском тексте (я просил разметить персонажей квадратными скобками, включая анафорические упоминания, и присовить сквозной ID каждому уникальному персонажу). Имхо круто. Что тут важно:

1. это сделано не в один запрос, а питоновским циклом через API OpenAI. Т.е. ID реально сквозной, а число абзацев, которые можно так обработать, ограничено только моим кошельком и рейт-лимитами на GPT-4.

2. Увы, GPT-3.5, которая кратно дешевле, пока не тянет в этой задаче. А с GPT-4 на всего Толстого моих карманных может и не хватить…

3. Выше был подан и самый первый абзац Анны Карениной (Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему”), про него сеть сказала “К сожалению, в представленном вами тексте нет упоминаний персонажей. Вы можете предоставить другой фрагмент текста, где есть персонажи, и я с удовольствием помогу с их выделением.” Культура отказа выучена прекрасно👌
Цифровой филолог (Даня Скоринкин)
Муж, он же Стива, он же Степан Аркадьевич Это GPT-4 размечает и идентифицирует персонажей в русском тексте (я просил разметить персонажей квадратными скобками, включая анафорические упоминания, и присовить сквозной ID каждому уникальному персонажу). Имхо…
Для тех, кто не знаком с историей компьютерной лингвистики/NLP последних лет, хочу пояснить, чем так впечатляет результат. Еще 5-7 лет назад просто связать местоимение “он” с именем в тексте было отдельной гигантской задачей (разрешение анафоры), по которой проводились соревнования, под которую писались специально заточенные инструменты, системы и программные библиотеки. Результаты были так себе. Отдельно от нее решалось собственно задача NER — распознавание в тексте людей и прочих именованных сущностей. Потом эти штуки мучительно скручивались вместе, писались всякие надстройки для локальной и глобальной идентификации “кореферентных цепочек” упоминаний персон… И когда буквально несколько лет спустя все эти задачи скопом решает модель, которую вообще этому никто специально не учил, которую даже русскому-то языку учили постольку–поскольку и для которой это какие-нибудь 0.05% всех ее знаний-умений, — это конечно космический прогресс в мире NLP
Жизненная DH-задачка на регулярные выражения (не GPT единым живет DH-разметка).

Дано: в тексте многие имена написаны р а з р я д к о й через пробел
Задача: удалить такие пробелы, используя только регекспы. Для простоты примем, что нас волнуют только слова длиной от 5 букв(имен короче там нет)

Какие я придумал неработающие варианты:
1. Сначала я надеялся, что во вторую группу регекспа на картинке 1 должны попадать все предпробельные буквы. И что можно сделать замену, сохранив из этого регекспа только группы 2 и 4. Но в группе 2 остается только последняя такая буква... (к)
2. Затем я думал находить пары "буква+пробел" по одной, смотреть, что у них впереди достаточно таких же пар (напр., через lookahead как на картинке 2) и заменять их поодиночке. Но так заменяются только часть пробелов, а потом оставшиеся 1-3 будут уже неотличимы от обычных межсловных

Как бы вы поступили?
Если что, решение на чистых регекспах в чистом блокноте без программирования было найдено. Хотя и слегка костыльное. Расскажу.
1824 год, Фаддей Булгарин описывает опыт работы с ChatGPT:

Машина для делания прозы хотя устроена была точно таким же образом, но отличалась тем, что для определения тактов имела трубу и барабан, а не фортепьяно и что на косточках написаны были не одни только слова, но даже целые речения и мысли, выбранные из разных авторов.

- Нельзя ли сочинить что-нибудь на заданный предмет? - спросил я.
- Очень можно, - отвечал мой проводник, - что вам угодно?

Тут я хотел привести в затруднение проводника и доказать неудобство сочинительных машин. Я избрал предметом сочинения описание моей родины,любопытствуя, каким образом машина отделается от этой задачи и опишет место не виданное и, может быть, не слыханное ни одним из жителей полярных стран.

Проводник достал с полки словарь древней географии, отыскал в нём название моего отечественного города, подобрал написанные на косточках речения, сходные с книгой, взял принадлежащие к описанию собственные имена, множество прилагательных, несколько вспомогательных глаголов и кучу готовых речений, бросил всё это в ящик, пустил пружину, барабан ударил поход, труба заиграла марш, и косточки начали сыпаться.

Представьте себе моё удивление, когда чрез полчаса вышло довольно подробное описание города, в котором я родился. С первого взгляда показалось мне, что оно не уступает произведениям посредственных умов; но, прочитав со вниманием, я тотчас приметил напыщенность, пошлые изречения, чужие мысли и недостаток связи с целым, которые обнаруживали действие машины, а не ума.

[Ф.В. Булгарин. Правдоподобные небылицы, или Странствование по свету в ХХIX веке (1824)]
UPD: в комментах сообщают, что это придумал Свифт, а Булгарин позаимствовал

Кстати, в СисБлоке есть еще примеры футуристики от авторов Пушкинской эпохи, вот тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Литературщина от GPT: иллюстрации к посту выше ⬆️

Сами тексты мы выложили тут, все желающие могут их тоже поисследовоать: https://github.com/lucagiovannini7/ai-storyteller
#личное
Сижу читаю разные DH-статьи и просто литературоведческие статьи про диалоги и диалогизм в русских романах, особенно у Толстого и Достоевского. Но никакая статья не родится. Вместо науки мозг постоянно съезжает на невеселые мысли о том, куда ж нам плыть и кем быть. Первые года полтора после эмиграции как-то прошли на адреналине и внезапности происходящего, теперь же накрывает тоскливое осознание тупика. В фейсбуке о таком теперь писать стыдно, пока на людей падают ракеты, напишу хоть тут.

В целом чувствую себя человеком, который опоздал на несколько поездов подряд и теперь не может решить, какой из них догонять и стоит ли пытаться (а поезда тем временем расходятся все дальше в N разных сторон). Размышлять “кавалергард ты будешь или дипломат” в 34 года как будто совсем неприлично, но и не размышлять не получается. Распутье-тупик видится мне следующим образом:

1. С одной стороны, оставлены надежды хоть как-то заскочить в последний вагон технологического паровоза. В 2012 я ради этого поступил в NLP-магистратуру, в 2013-м пошел работать в ABBYY, в 2014 наивно полагал, что задача решена… Формально это было так: я был инженером в большой глобальной IT-компании. По факту оказалось, что я запрыгнул в отцепленный вагон «лингвистического» NLP, который укатили на запасной путь в эпоху машин-лернинга и нейросетей. Сообразить это вовремя не получилось, перестроиться тоже, и лучшее, что я смог, — выпрыгнуть из вагона и перебраться в Digital Humanities, которым и посвящен этот канал.

2. Как видно из названия канала, к Digital Humanities у меня отношение сложное. Главным образом мне непонятно, зачем кому-то нужно знать то, что пытается выяснить Digital Humanities, и как это знание хоть кому-то может помочь. А заниматься игрой в бисер за общественный счет на настолько неблагоустроенной планете мне по-прежнему не хочется.

3. С годами я начал понимать ценность классической гуманитарной науки — ну просто по факту того, что к её объекту есть в обществе какой-то трепет. Важен людям почему-то Толстой — немножко отраженной важности можешь поймать и ты, исследуя Толстого и зная о нем кратно больше среднего человека (функция живой ячейки памяти). Этого было бы достаточно, но проблема в том, что я не настоящий сварщик: никогда на филолога и не учился, а только пришел поковырять Толстого NLP-методами, когда это выглядело свежо и хайпово. Написал диссер, но глубины и научной эрудиции не накопил. Оглядывая необъятные горы написанного о том же русском реалистическом романе, с ужасом думаю, что тут читать лет 10 и не перечитать…

4. Иногда кажется, что при таких исходных данных (jack of all trades, master of none) надо плюнуть на все попытки занятия какой-либо наукой и, пользуясь попутно-накопленным портфолио главреда @sysblok, просто укатиться куда-то в научпоп и надеяться, что сборка научно-популярного контента чуть облагородит коммунальное инфопространство in the long run.

5. Но тут вступают страхи того самого long run-а: допустим, сейчас так поступить можно, а что будет через 10-15 лет? Кому в сжавшейся российской экономике 2040 года будет нужен 50-летний научпоп-журналист? В академии при всей её тоске и бюрократизированности хотя бы понятно, какую ценность можно приносить в 50-60 лет (махать седой бородой и изображать УчОнОгО на бессмысленных заседаниях — унылая, но декоративно нужная функция). А вне её? Непонятно. А способен ли я еще остаться в академии, учитывая п.3 и п.1? Совсем туманно.

С такими мыслями я вошел в новый год. Справедливости ради — все это полная ерунда на фоне войн, заложников, гуманитарных и климатических катастроф. Тем не менее спасибо что дочитали: поделившись с вами, мне стало легче ☺️ Всем добра и мира!
Please open Telegram to view this post
VIEW IN TELEGRAM
Обнаруженная мной параллель между “Твин Пиксом” (1990) и “Физиологией Петербурга” (1845) сегодня была подсвечена прекрасным каналом “Некраткие содержания”. А еще туда нативно вставили выпуск подкаста “Лига айвы”, где я рассказываю Борису Орехову про мои университеты и чем Потсдам отличается от Вышки. И “Содержания”, и “Лигу” всем рекомендую
Forwarded from Некраткие содержания 🎙 (Boris Orekhov)
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда мы готовили сегодняшний материал в Системном Блоке про удивительные экспонаты музейного Госкаталога РФ, меня совершенно покорила композиция из моржового клыка «В ожидании санрейса» 1967 года. Во-первых, это классная демонстрация ценности оцифровки, ведь чтобы увидеть этот экспонат вживую, нужно добраться (по воздуху или по воде) до самого восточного населённого пункта России — села Уэлен на Чукотке. А теперь вот он, доступен мне по клику мышки из середины Европы (ну ладно, с VPN, мы нынче недружественные 👹). Во-вторых, я был впечатлен подробностью описания экспоната в метаданных:

Подставка стоит на округленных четырех ножках на ней стоят фигуры из клыка моржа: три человека, три оленя, две нарты и собака. Слева направо стоит нарта на ней лежит ребенок, укутанный до головы, с левой стороны от нее сидит на коленях человек в национальной одежде, а впереди в обеих руках держит сумку – аптечку, впереди облокоченный об полозья лежит хорей. Впереди нарты лежит олень, ноги положив под себя, а передняя правая вытянута, голова повернута влево, по левую сторону вторые нарты. Возле нарт стоит человек в национальной одежде, ноги расставлены, левая рука поставлена возле лба и смотрит вдаль, в правой руке держит хорей. Рядом с ним стоит олень, высунув язык. Третьи олень лежит, ноги убрав под себя, голова развернута в сторону стоящего оленя. Собака лежит, голову повернув влево. На одной стороне отгравировано: сцена жизни тундровых чукчей: едущие с пассажирами две собачьи упряжки, а впереди их встречают три человека возле двух яранг. Вторая сторона: самолет, люди с носилками несут больного, две оленьи упряжки едут, две яранги и пастух пасет стадо.

Это ж надо было заморочиться с описанием… И ведь до ChatGPT 😅

А в третьих, просто посмотрите, как это тонко вырезано:
Please open Telegram to view this post
VIEW IN TELEGRAM
Корпусный тест Тьюринга и вежливые уши GPT

Постоянно вижу новости о том, как в научных статьях, рецензиях на статьи, деловых письмах и прочих “ответственных” текстах просвечивают белыми нитками языковые модели. Вот например на картинке (из этой статьи) статистика употребления некоторых типично GPT-шных слов в рецензиях на конференции ICLR. Вежливые академические прилагательные вроде meticulous или commendable внезапно становятся теми самыми “ушами”, которые торчат из текстов.

Так что пусть классификаторы пока плохо справляются с разделением отдельных текстов на сгенерированные и человеческие, но на уровне корпусов (т.е. больших массивов текстов) все видно. И меня это радует: корпусные методы вновь оказываются актуальными как вспомогательный инструмент в дивном новом мире языковых моделей (о чем уже как-то писала Таня @rybolos_channel).

Глядишь и стилометрия тоже пригодится — как вы помните, она, к примеру, отличает GPT-шные имитации писателей от настоящих текстов этих писателей (хотя эта задача легче).
P.S. Мир переходит на африканский английский?

Избыточно вежливый расшаркивающийся английский от GPT породил в твиттере дискуссию о том, насколько на стилистику языковых моделей повлияли особенности английского в Африке.

Вот например Пол Грэм получил какое-то интересное письмо с предложением, а потом увидел там конструкцию delve into и разочаровался, уверившись, что это ChatGPT. Дальше началась дискуссия (местами не вполне политкорректная), что такой вычурный английский характерен для Нигерии и других стран Африки, а еще для Индии. Ну а как известно, люди для дообучения моделей на человеческих инструкциях берутся не в Лондоне и не в Нью-Йорке..

Впрочем, с учетом демографии, переход на африканские варианты английского все равно дело времени 💯
5 коллекций данных для цифрового гуманитария

Интернет набит данными, но очень немногие датасеты сделаны гуманитариями и для гуманитариев. Собрал пять чисто гуманитарных источников данных, которые хорошо использовать в курсе анализа данных или программирования на DH-программах.

🎭 1. DraCor — корпуса и датасеты вокруг драматических текстов (с уклоном в network analysis, но не только). Один из очень немногих проектов, сумевших на базе “гуманитарного” стандарта TEI построить классную экосистему гуманитарных данных. Самые приятные данные дракора — это метаданные для каждого корпуса, которые вы можете скачать прямо на страничке корпуса, например, вот табличка для русского корпуса: https://dracor.org/api/v1/corpora/rus/metadata/csv Тут и классические метаданые вроде дат написания и публикации, и сетевые вроде плотности социальной сети в пьесе, и например соотношение мужской и женской речи…

Еще для каждой отдельной пьесы можно скачать сетевые данные (в gexf/csv/gml), речь персонажей, сценические ремарки… Ну и полную разметку в TEI, из которой все эти данные произрастают.

✒️ 2. Репозиторий открытых данных по русской литературе и фольклору — проект Цифровой лабы Пушкинского дома (ИРЛИ РАН), где цифровые филологи и не только публикуют датасеты и (иногда) код к своим исследованиям. Своего рода гуманитарный papers with code. Вот, например, данные и код к статье Кирилла Маслинского о том, какие животные чаще встречаются в каких жанрах детской литературе.

А еще там публикует новые датасеты сам ПушДом. Многие из них называются очень романтично. Скажем, Забытые романы русских писателей из фондов Пушкинского Дома (1857–1917)… Датасет с таким названием нужно обрабатывать под звуки романса “Отцвели уж давно хризантемы в саду”🍂

📚 3. European Literary Text Collection (ELTeC) — корпуса европейских романов, собранные с прицелом на репрезентативность и сопоставимость друг с другом. Целью было найти для каждой европейской литературы по 100 романов в диапазоне 1840-1920, чтобы они покрывали период более-менее равномерно, чтобы были представлены не только писатели-мужчины, чтобы бли длиной не менее 10000 слов и т.д. Не для всех корпусов это удалось, а русский корпус там совсем странный, но тем не менее — одна из немногих попыток сделать датасет, пригодный для “компаративистики” by design.

🏛 4. Госкаталог Музейного фонда РФсвалка датасет по всему, что оцифровано во всех музеях России. Не так часто в нашей области можно найти наборы данных, где записей не тысячи, но миллионы. Качество очень разное, репрезентативность тоже под вопросом, но жемчужин в этом океане данных тоже море. Одну я здесь уже описывал.

🗺 5. Геоданные DHCLOUD. Тут лежат литературные карты в geojson, сделанные студентами гуманитарного факультета Вышки под руководством Бориса Орехова. Картографированы самые разные тексты: от маршрута Афанасия Никитина и до Приключений Капитана Врунгеля 🐳
Please open Telegram to view this post
VIEW IN TELEGRAM