Цифровой филолог (Даня Скоринкин)
1.84K subscribers
87 photos
1 file
64 links
Digital Humanities, количественные методы анализа текстов, вычислительная филология, компьютерная лингвистика, бытование текстов, языка и литературы в эпоху чат-гопоты, умных машин и безумных людей
Ранее известен как Ебаный DH
Ведёт Даня @skorinkin
加入频道
«Системному Блоку» 5 лет! Итоги работы — в цифрах

Системному Блоку исполнилось 5 лет. За это время мы превратились из маленького паблика в немаленькое медиа, которое вещает из каждого утюга. В разных соцсетях к нам суммарно пришли около 150000 читателей (спасибо вам, что вы с нами!).

Мы опубликовали на нашем сайте больше 1000 материалов, устроили практику для сотен студентов, помогли провести десятки пар в университетах… И все это с нулем бюджета и на чистом волонтерстве. На карточках — итоги 5 лет нашей работы. Если хотите поучаствовать — подключайтесь.
«Впервые я увидел ЭВМ, только когда мы сами ее сделали», или сказка про Кремниевый Арарат 🏔💽

Тут недавно ребята из DataArt, которые сегодня, кажется, главные археологи Советской компьютерной Атлантиды, сделали мега-проект про вычислительную технику Советской Армении. Я сам как раз в августе был в Музее науки и техники в Ереване, который очень сильно сфокусирован на Армянской электронике 1950х—1980х, но это даже круче! В Ереване, конечно, реальная физическая экспозиция с вакуумными трубками, транзисторами, ферритовой памятью и прочими кусками ЭВМ «Арагац», «Раздан» и «Наири» (на последней моя мама училась программировать в 1970-е). А тут вроде как выставка всего лишь виртуальная.. но погружение мощнейшее! Цитата из описания проекта:

В Ереване проектировали и собирали новые машины для науки и образования, промышленности и транспорта, управления и оборонных программ. Среди наиболее заметных разработок ЕрНИИММ компьютеры семейства «Наири», эволюция которого едва не завершилась созданием полноценного советского ПК, первая в СССР автоматизированная система продажи ж/д билетов, самая сбалансированная машина международного проекта ЕС ЭВМ, вычислительные комплексы для стратегической авиации. Проект «Математические машины Армении» освещает их историю на основании не только материалов из открытых источников и публикаций, но также интервью с бывшими сотрудниками ЕрНИИММ: конструкторами и разработчиками.

А еще эти фотки! Это ведь как если бы Саша Привалов у Стругацких поехал не на север в Соловец, а на юг в Закавказье…

Ну и круто, что там все вписано в культурно-общественный контекст: упомянуты и мультики «Арменфильма», и «Цвет граната» Параджанова, и рок-виа-фестиваль «Ереван-81», и строительство Ереванского метро, и футуристическая архитектура аэропорта «Звартноц»…

https://armenianit.dataart.com/
P.S. Кстати, когда я сходил поблагодарить главного редактора «Математических машины Армении» за этот королевский подгон архивного материала, он в ответ сказал, что у них только что вышел спецпроект про Виктора Глушкова (ну который ОГАС, несбывшийся советский интернет) и кибернетику Украины: https://museum.dataart.com/en/victor-glushkov/

Эти воспоминания впервые печатаются целиком, их передала DataArt дочь Глушкова Вера, которая умерла в этом году, но успела дать интервью: https://museum.dataart.com/ru/narratives/vera-glushkova (осторожно, тут вас ждут довольно типичные для наследников советской инженерной элиты заходы о том, как “в СССР изобрели” буквально всё на свете раньше американцев в 195[x] году, но если это привычно делить на 5, то остается много интересной фактуры)
Выступил на «Арзамасе» в любимом жанре ответов на вопрос «ну и нахрена вы полезли со своими цифровыми методами к Пушкину с Толстым»
А вы знали про крутейшую украинскую программистку Катерину Ющенко? Там потрясающая судьба: от ареста отца в 1937 за типа “украинский национализм”, изгнания из Киевского университета в возрасте 17 лет и работы взрывником (взрывницей?) на угольной шахте в Узбекистане в 1943-м — до разработки кода для МЭСМ в 1952-м, изобретения Указателя как типа данных в 1955-м и соавторства книги по ЭВМ "Киев" с Виктором Глушковым (тем, который потом будет пытаться пилить советский Арпанет) в 1962-м.

Радуюсь, что успел ее подкинуть во вчерашний материал о женщинах-программистках в компанию к Аде Лавлейс, Грейс Хоппер и прочим.
Перевариваю тот факт, что в корпусе TEI-размеченных пьес DraCor, который мы придумали в 2017-2018 году и который с моего легкого языка так называется, уже 16 подкорпусов, 14 языков и 44534 драматических персонажа (из которых 26623 явно мужских и 10600 явно женских). И для каждой из 3121 пьес вы можете скачать сеть совместной встречаемости персонажей, реплики, разбитые по гендеру, сценические ремарки отдельно от текста и т.п.фичи, невозможные без TEI-разметки 😎🧑‍💻 (Все цифры на сегодня, 29 сентября 2023)

А впрочем, как вы понимаете, проект этот абсолютно бесполезен, как и все эти ваши Digital Humanities. Он только добавляет еще больше CO2 в атмосферу нашей планеты, стремительно превращающуюся из просто парника в кровавую баню ☠️☠️☠️ Хорошей пятницы и счастливых вам выходных!🥳

P.S. Да, если кто-то готов научить меня делать в Питоне невсратые барплоты, буду рад. Seaborn не предлагать.
Сегодня по рабочим делам попросил ChatGPT сгенерировать дворовый пересказ Ромео и Джульетты… Взял первый же вариант без черри-пикинга. Какие ошибки видите?
Придумали тут в комментах, что книжку о том, как языковые модели научились говорить и какие смешные ошибки делал ИИ в “детстве”, можно будет назвать “ЧатДжипити — от двух до пяти”… Учитывая текущую нумерацию версий GPT, осталось недолго
Муж, он же Стива, он же Степан Аркадьевич

Это GPT-4 размечает и идентифицирует персонажей в русском тексте (я просил разметить персонажей квадратными скобками, включая анафорические упоминания, и присовить сквозной ID каждому уникальному персонажу). Имхо круто. Что тут важно:

1. это сделано не в один запрос, а питоновским циклом через API OpenAI. Т.е. ID реально сквозной, а число абзацев, которые можно так обработать, ограничено только моим кошельком и рейт-лимитами на GPT-4.

2. Увы, GPT-3.5, которая кратно дешевле, пока не тянет в этой задаче. А с GPT-4 на всего Толстого моих карманных может и не хватить…

3. Выше был подан и самый первый абзац Анны Карениной (Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему”), про него сеть сказала “К сожалению, в представленном вами тексте нет упоминаний персонажей. Вы можете предоставить другой фрагмент текста, где есть персонажи, и я с удовольствием помогу с их выделением.” Культура отказа выучена прекрасно👌
Цифровой филолог (Даня Скоринкин)
Муж, он же Стива, он же Степан Аркадьевич Это GPT-4 размечает и идентифицирует персонажей в русском тексте (я просил разметить персонажей квадратными скобками, включая анафорические упоминания, и присовить сквозной ID каждому уникальному персонажу). Имхо…
Для тех, кто не знаком с историей компьютерной лингвистики/NLP последних лет, хочу пояснить, чем так впечатляет результат. Еще 5-7 лет назад просто связать местоимение “он” с именем в тексте было отдельной гигантской задачей (разрешение анафоры), по которой проводились соревнования, под которую писались специально заточенные инструменты, системы и программные библиотеки. Результаты были так себе. Отдельно от нее решалось собственно задача NER — распознавание в тексте людей и прочих именованных сущностей. Потом эти штуки мучительно скручивались вместе, писались всякие надстройки для локальной и глобальной идентификации “кореферентных цепочек” упоминаний персон… И когда буквально несколько лет спустя все эти задачи скопом решает модель, которую вообще этому никто специально не учил, которую даже русскому-то языку учили постольку–поскольку и для которой это какие-нибудь 0.05% всех ее знаний-умений, — это конечно космический прогресс в мире NLP
Жизненная DH-задачка на регулярные выражения (не GPT единым живет DH-разметка).

Дано: в тексте многие имена написаны р а з р я д к о й через пробел
Задача: удалить такие пробелы, используя только регекспы. Для простоты примем, что нас волнуют только слова длиной от 5 букв(имен короче там нет)

Какие я придумал неработающие варианты:
1. Сначала я надеялся, что во вторую группу регекспа на картинке 1 должны попадать все предпробельные буквы. И что можно сделать замену, сохранив из этого регекспа только группы 2 и 4. Но в группе 2 остается только последняя такая буква... (к)
2. Затем я думал находить пары "буква+пробел" по одной, смотреть, что у них впереди достаточно таких же пар (напр., через lookahead как на картинке 2) и заменять их поодиночке. Но так заменяются только часть пробелов, а потом оставшиеся 1-3 будут уже неотличимы от обычных межсловных

Как бы вы поступили?
Если что, решение на чистых регекспах в чистом блокноте без программирования было найдено. Хотя и слегка костыльное. Расскажу.
1824 год, Фаддей Булгарин описывает опыт работы с ChatGPT:

Машина для делания прозы хотя устроена была точно таким же образом, но отличалась тем, что для определения тактов имела трубу и барабан, а не фортепьяно и что на косточках написаны были не одни только слова, но даже целые речения и мысли, выбранные из разных авторов.

- Нельзя ли сочинить что-нибудь на заданный предмет? - спросил я.
- Очень можно, - отвечал мой проводник, - что вам угодно?

Тут я хотел привести в затруднение проводника и доказать неудобство сочинительных машин. Я избрал предметом сочинения описание моей родины,любопытствуя, каким образом машина отделается от этой задачи и опишет место не виданное и, может быть, не слыханное ни одним из жителей полярных стран.

Проводник достал с полки словарь древней географии, отыскал в нём название моего отечественного города, подобрал написанные на косточках речения, сходные с книгой, взял принадлежащие к описанию собственные имена, множество прилагательных, несколько вспомогательных глаголов и кучу готовых речений, бросил всё это в ящик, пустил пружину, барабан ударил поход, труба заиграла марш, и косточки начали сыпаться.

Представьте себе моё удивление, когда чрез полчаса вышло довольно подробное описание города, в котором я родился. С первого взгляда показалось мне, что оно не уступает произведениям посредственных умов; но, прочитав со вниманием, я тотчас приметил напыщенность, пошлые изречения, чужие мысли и недостаток связи с целым, которые обнаруживали действие машины, а не ума.

[Ф.В. Булгарин. Правдоподобные небылицы, или Странствование по свету в ХХIX веке (1824)]
UPD: в комментах сообщают, что это придумал Свифт, а Булгарин позаимствовал

Кстати, в СисБлоке есть еще примеры футуристики от авторов Пушкинской эпохи, вот тут.
Please open Telegram to view this post
VIEW IN TELEGRAM