Цифровой филолог (Даня Скоринкин)
1.84K subscribers
87 photos
1 file
64 links
Digital Humanities, количественные методы анализа текстов, вычислительная филология, компьютерная лингвистика, бытование текстов, языка и литературы в эпоху чат-гопоты, умных машин и безумных людей
Ранее известен как Ебаный DH
Ведёт Даня @skorinkin
加入频道
А вы знали про крутейшую украинскую программистку Катерину Ющенко? Там потрясающая судьба: от ареста отца в 1937 за типа “украинский национализм”, изгнания из Киевского университета в возрасте 17 лет и работы взрывником (взрывницей?) на угольной шахте в Узбекистане в 1943-м — до разработки кода для МЭСМ в 1952-м, изобретения Указателя как типа данных в 1955-м и соавторства книги по ЭВМ "Киев" с Виктором Глушковым (тем, который потом будет пытаться пилить советский Арпанет) в 1962-м.

Радуюсь, что успел ее подкинуть во вчерашний материал о женщинах-программистках в компанию к Аде Лавлейс, Грейс Хоппер и прочим.
Перевариваю тот факт, что в корпусе TEI-размеченных пьес DraCor, который мы придумали в 2017-2018 году и который с моего легкого языка так называется, уже 16 подкорпусов, 14 языков и 44534 драматических персонажа (из которых 26623 явно мужских и 10600 явно женских). И для каждой из 3121 пьес вы можете скачать сеть совместной встречаемости персонажей, реплики, разбитые по гендеру, сценические ремарки отдельно от текста и т.п.фичи, невозможные без TEI-разметки 😎🧑‍💻 (Все цифры на сегодня, 29 сентября 2023)

А впрочем, как вы понимаете, проект этот абсолютно бесполезен, как и все эти ваши Digital Humanities. Он только добавляет еще больше CO2 в атмосферу нашей планеты, стремительно превращающуюся из просто парника в кровавую баню ☠️☠️☠️ Хорошей пятницы и счастливых вам выходных!🥳

P.S. Да, если кто-то готов научить меня делать в Питоне невсратые барплоты, буду рад. Seaborn не предлагать.
Сегодня по рабочим делам попросил ChatGPT сгенерировать дворовый пересказ Ромео и Джульетты… Взял первый же вариант без черри-пикинга. Какие ошибки видите?
Придумали тут в комментах, что книжку о том, как языковые модели научились говорить и какие смешные ошибки делал ИИ в “детстве”, можно будет назвать “ЧатДжипити — от двух до пяти”… Учитывая текущую нумерацию версий GPT, осталось недолго
Муж, он же Стива, он же Степан Аркадьевич

Это GPT-4 размечает и идентифицирует персонажей в русском тексте (я просил разметить персонажей квадратными скобками, включая анафорические упоминания, и присовить сквозной ID каждому уникальному персонажу). Имхо круто. Что тут важно:

1. это сделано не в один запрос, а питоновским циклом через API OpenAI. Т.е. ID реально сквозной, а число абзацев, которые можно так обработать, ограничено только моим кошельком и рейт-лимитами на GPT-4.

2. Увы, GPT-3.5, которая кратно дешевле, пока не тянет в этой задаче. А с GPT-4 на всего Толстого моих карманных может и не хватить…

3. Выше был подан и самый первый абзац Анны Карениной (Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему”), про него сеть сказала “К сожалению, в представленном вами тексте нет упоминаний персонажей. Вы можете предоставить другой фрагмент текста, где есть персонажи, и я с удовольствием помогу с их выделением.” Культура отказа выучена прекрасно👌
Цифровой филолог (Даня Скоринкин)
Муж, он же Стива, он же Степан Аркадьевич Это GPT-4 размечает и идентифицирует персонажей в русском тексте (я просил разметить персонажей квадратными скобками, включая анафорические упоминания, и присовить сквозной ID каждому уникальному персонажу). Имхо…
Для тех, кто не знаком с историей компьютерной лингвистики/NLP последних лет, хочу пояснить, чем так впечатляет результат. Еще 5-7 лет назад просто связать местоимение “он” с именем в тексте было отдельной гигантской задачей (разрешение анафоры), по которой проводились соревнования, под которую писались специально заточенные инструменты, системы и программные библиотеки. Результаты были так себе. Отдельно от нее решалось собственно задача NER — распознавание в тексте людей и прочих именованных сущностей. Потом эти штуки мучительно скручивались вместе, писались всякие надстройки для локальной и глобальной идентификации “кореферентных цепочек” упоминаний персон… И когда буквально несколько лет спустя все эти задачи скопом решает модель, которую вообще этому никто специально не учил, которую даже русскому-то языку учили постольку–поскольку и для которой это какие-нибудь 0.05% всех ее знаний-умений, — это конечно космический прогресс в мире NLP
Жизненная DH-задачка на регулярные выражения (не GPT единым живет DH-разметка).

Дано: в тексте многие имена написаны р а з р я д к о й через пробел
Задача: удалить такие пробелы, используя только регекспы. Для простоты примем, что нас волнуют только слова длиной от 5 букв(имен короче там нет)

Какие я придумал неработающие варианты:
1. Сначала я надеялся, что во вторую группу регекспа на картинке 1 должны попадать все предпробельные буквы. И что можно сделать замену, сохранив из этого регекспа только группы 2 и 4. Но в группе 2 остается только последняя такая буква... (к)
2. Затем я думал находить пары "буква+пробел" по одной, смотреть, что у них впереди достаточно таких же пар (напр., через lookahead как на картинке 2) и заменять их поодиночке. Но так заменяются только часть пробелов, а потом оставшиеся 1-3 будут уже неотличимы от обычных межсловных

Как бы вы поступили?
Если что, решение на чистых регекспах в чистом блокноте без программирования было найдено. Хотя и слегка костыльное. Расскажу.
1824 год, Фаддей Булгарин описывает опыт работы с ChatGPT:

Машина для делания прозы хотя устроена была точно таким же образом, но отличалась тем, что для определения тактов имела трубу и барабан, а не фортепьяно и что на косточках написаны были не одни только слова, но даже целые речения и мысли, выбранные из разных авторов.

- Нельзя ли сочинить что-нибудь на заданный предмет? - спросил я.
- Очень можно, - отвечал мой проводник, - что вам угодно?

Тут я хотел привести в затруднение проводника и доказать неудобство сочинительных машин. Я избрал предметом сочинения описание моей родины,любопытствуя, каким образом машина отделается от этой задачи и опишет место не виданное и, может быть, не слыханное ни одним из жителей полярных стран.

Проводник достал с полки словарь древней географии, отыскал в нём название моего отечественного города, подобрал написанные на косточках речения, сходные с книгой, взял принадлежащие к описанию собственные имена, множество прилагательных, несколько вспомогательных глаголов и кучу готовых речений, бросил всё это в ящик, пустил пружину, барабан ударил поход, труба заиграла марш, и косточки начали сыпаться.

Представьте себе моё удивление, когда чрез полчаса вышло довольно подробное описание города, в котором я родился. С первого взгляда показалось мне, что оно не уступает произведениям посредственных умов; но, прочитав со вниманием, я тотчас приметил напыщенность, пошлые изречения, чужие мысли и недостаток связи с целым, которые обнаруживали действие машины, а не ума.

[Ф.В. Булгарин. Правдоподобные небылицы, или Странствование по свету в ХХIX веке (1824)]
UPD: в комментах сообщают, что это придумал Свифт, а Булгарин позаимствовал

Кстати, в СисБлоке есть еще примеры футуристики от авторов Пушкинской эпохи, вот тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Литературщина от GPT: иллюстрации к посту выше ⬆️

Сами тексты мы выложили тут, все желающие могут их тоже поисследовоать: https://github.com/lucagiovannini7/ai-storyteller
#личное
Сижу читаю разные DH-статьи и просто литературоведческие статьи про диалоги и диалогизм в русских романах, особенно у Толстого и Достоевского. Но никакая статья не родится. Вместо науки мозг постоянно съезжает на невеселые мысли о том, куда ж нам плыть и кем быть. Первые года полтора после эмиграции как-то прошли на адреналине и внезапности происходящего, теперь же накрывает тоскливое осознание тупика. В фейсбуке о таком теперь писать стыдно, пока на людей падают ракеты, напишу хоть тут.

В целом чувствую себя человеком, который опоздал на несколько поездов подряд и теперь не может решить, какой из них догонять и стоит ли пытаться (а поезда тем временем расходятся все дальше в N разных сторон). Размышлять “кавалергард ты будешь или дипломат” в 34 года как будто совсем неприлично, но и не размышлять не получается. Распутье-тупик видится мне следующим образом:

1. С одной стороны, оставлены надежды хоть как-то заскочить в последний вагон технологического паровоза. В 2012 я ради этого поступил в NLP-магистратуру, в 2013-м пошел работать в ABBYY, в 2014 наивно полагал, что задача решена… Формально это было так: я был инженером в большой глобальной IT-компании. По факту оказалось, что я запрыгнул в отцепленный вагон «лингвистического» NLP, который укатили на запасной путь в эпоху машин-лернинга и нейросетей. Сообразить это вовремя не получилось, перестроиться тоже, и лучшее, что я смог, — выпрыгнуть из вагона и перебраться в Digital Humanities, которым и посвящен этот канал.

2. Как видно из названия канала, к Digital Humanities у меня отношение сложное. Главным образом мне непонятно, зачем кому-то нужно знать то, что пытается выяснить Digital Humanities, и как это знание хоть кому-то может помочь. А заниматься игрой в бисер за общественный счет на настолько неблагоустроенной планете мне по-прежнему не хочется.

3. С годами я начал понимать ценность классической гуманитарной науки — ну просто по факту того, что к её объекту есть в обществе какой-то трепет. Важен людям почему-то Толстой — немножко отраженной важности можешь поймать и ты, исследуя Толстого и зная о нем кратно больше среднего человека (функция живой ячейки памяти). Этого было бы достаточно, но проблема в том, что я не настоящий сварщик: никогда на филолога и не учился, а только пришел поковырять Толстого NLP-методами, когда это выглядело свежо и хайпово. Написал диссер, но глубины и научной эрудиции не накопил. Оглядывая необъятные горы написанного о том же русском реалистическом романе, с ужасом думаю, что тут читать лет 10 и не перечитать…

4. Иногда кажется, что при таких исходных данных (jack of all trades, master of none) надо плюнуть на все попытки занятия какой-либо наукой и, пользуясь попутно-накопленным портфолио главреда @sysblok, просто укатиться куда-то в научпоп и надеяться, что сборка научно-популярного контента чуть облагородит коммунальное инфопространство in the long run.

5. Но тут вступают страхи того самого long run-а: допустим, сейчас так поступить можно, а что будет через 10-15 лет? Кому в сжавшейся российской экономике 2040 года будет нужен 50-летний научпоп-журналист? В академии при всей её тоске и бюрократизированности хотя бы понятно, какую ценность можно приносить в 50-60 лет (махать седой бородой и изображать УчОнОгО на бессмысленных заседаниях — унылая, но декоративно нужная функция). А вне её? Непонятно. А способен ли я еще остаться в академии, учитывая п.3 и п.1? Совсем туманно.

С такими мыслями я вошел в новый год. Справедливости ради — все это полная ерунда на фоне войн, заложников, гуманитарных и климатических катастроф. Тем не менее спасибо что дочитали: поделившись с вами, мне стало легче ☺️ Всем добра и мира!
Please open Telegram to view this post
VIEW IN TELEGRAM