На этой неделе написал важный для меня и довольно личный текст — о том, как лингвисты строили Вавилонскую башню NLP в компании ABBYY.
Советую этот печальный лонгрид для употребления за вечерним чаем 🍂☕️ Для разбавления горечи досыпал туда мемасов с Хомским и запоздалых признаний в любви 💔
Советую этот печальный лонгрид для употребления за вечерним чаем 🍂☕️ Для разбавления горечи досыпал туда мемасов с Хомским и запоздалых признаний в любви 💔
Системный Блокъ
Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP - Системный Блокъ
Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации сотрудников по паспорту улеглись, хочется поговорить о более…
#не_про_dh
10 декабря — день рождения Всеобщей декларации прав человека (и мой), в связи с чем предлагаю пожертвовать денежек моему любимому фонду "Жизненный путь", который помогает людям с ментальными особенностями жить вне ПНИ: https://liferoute.org/donate
Или любой негосударственной организации, которая занимается гуманизацией нашего негуманного отечества.
Контент про DH скоро вернется, обещаю
10 декабря — день рождения Всеобщей декларации прав человека (и мой), в связи с чем предлагаю пожертвовать денежек моему любимому фонду "Жизненный путь", который помогает людям с ментальными особенностями жить вне ПНИ: https://liferoute.org/donate
Или любой негосударственной организации, которая занимается гуманизацией нашего негуманного отечества.
Контент про DH скоро вернется, обещаю
liferoute.org
Форма пожертвований
Деанонимизация Z-доносчицы, стилометрия и корпусный анализ
Сегодня мой скромный труд на ниве популяризации Digital Humanities привел к тому, что о стилометрии написали Бибиси. Это большой материал о том, как Саша Архипова при моём участии (и участии еще десятка людей) выяснила, что авторка тысяч Z-доносов “Анна Васильевна Коробкова” — на самом деле молодой википедист-сталинист и фанат НКВД Иван Абатуров. Особо горжусь тем, что найденную мной в ВК цитату Вани Абатурова о том, как он хочет быть “ходячей прокуратурой”, взяли в заголовок.
Если кратко, то Абатурова сгубило тщеславие (решил сам написать о своем вымышленном альтер-эго Коробковой статью в Википедию и думал, что новый юзернейм “Аркадий2023” его спрячет) и набор характерных формул, которые он использовал в текстах под всеми именами. Если совсем честно, то гораздо полезнее стилометрии тут оказался филологический навык пристального чтения — и затем старый добрый корпусный анализ с поиском формульных конструкций при помощи регулярных выражений / поисковых шаблонов.
Конструкция, которая выдала Абатурова больше других, — “я (категорически) против любого/ой/ых [Х]”, где под Х в доносах чаще всего “нарушение закона”, а в других текстах Абатурова еще и “фальсификация истории”, “сепаратизм”, “массовые беспорядки”, “насилие” и т.д. Эту конструкцию, словно магическое заклинание-оберег, Абатуров особенно часто вставляет в тексты, адресуемые “во власть”, — доносы и обращения к депутатам. Там это практически обязательное вступление или заключение. Часто с удвоением, чтоб магия точно сработала. Но и у себя в ВК (который я обкачал и тоже исследовал как корпус) Ваня Абатуров иногда тоже так пишет.
Прикол в том, что формула очень редкая. На 160 млн словоупотреблений корпуса соцсетей НКРЯ конструкция “я (категорически) против любого/ой/ых” встретилась мне лишь 13 раз во всех вариантах. А на каких-то 35 тысяч словоупотреблений в текстах “Коробковой” — больше 30 раз! То есть частотность выше на несколько порядков. И у Абатурова тоже… А еще он зачем-то постоянно вставляет эту формулу в технические описания к своим правкам в википедии (там мой скриншот есть у Бибиси в тексте, посмотрите).
Также я скачал все 555 репортажей в викиновостях, которые написал Иван Абатуров (там есть очень смешные, он использует викиновости как книгу жалоб), и искал совпадения с языком текстов Коробковой в них. Например, там есть 223 употребления слова “мол” (вообще говоря не очень принятого в новостных текстах), причем стабильно без запятых вокруг. И именно так использует “мол” Коробкова (десятки раз). В викирепортажах парочки других авторов, которых я взял для сравнения, мол вообще отсутствует. Формула “(категорически) против любых [X]” в викирепортажах Абатурова тоже есть, хотя и не от первого лица, конечно.
В этом расследовании много и других доказательств, гораздо более весомых, чем совпадения речевого портрета и стилометрическая близость. Другие участники этого расследования нашли совпадения в модели фотоаппарата, указанной в метаданных фотографий, загруженных в википедию, совпадения в IP, c которого ходят письма Абатурова и Коробковой, а также подтверждения присутствия обоих персонажей на одних и тех же мероприятиях. А еще я, копаясь в текстах ВК Абатурова, нашел удивительные совпадения в рассказах Абатурова и Коробковой об их общем дедушке — “сапёре, участнике ВОВ и сексоте НКВД”. И дедушка этот (естественно, под фамилией Абатуров) находится на сайтах “Память народа” и “Бессмертный полк”.
Подробнее о лингвистической стороне этой истории я еще напишу чуть позже. А вот пост самой Саши Архиповой об этом расследовании. Кроме того мы с Сашей планируем рассказывать, как искали Коробкову, 29 декабря онлайн в 19 мск.
А пока просто надеюсь, что где-то в Екатеринбурге одному доносчику стало страшнее жить. Кстати, адрес его мне известен.
Сегодня мой скромный труд на ниве популяризации Digital Humanities привел к тому, что о стилометрии написали Бибиси. Это большой материал о том, как Саша Архипова при моём участии (и участии еще десятка людей) выяснила, что авторка тысяч Z-доносов “Анна Васильевна Коробкова” — на самом деле молодой википедист-сталинист и фанат НКВД Иван Абатуров. Особо горжусь тем, что найденную мной в ВК цитату Вани Абатурова о том, как он хочет быть “ходячей прокуратурой”, взяли в заголовок.
Если кратко, то Абатурова сгубило тщеславие (решил сам написать о своем вымышленном альтер-эго Коробковой статью в Википедию и думал, что новый юзернейм “Аркадий2023” его спрячет) и набор характерных формул, которые он использовал в текстах под всеми именами. Если совсем честно, то гораздо полезнее стилометрии тут оказался филологический навык пристального чтения — и затем старый добрый корпусный анализ с поиском формульных конструкций при помощи регулярных выражений / поисковых шаблонов.
Конструкция, которая выдала Абатурова больше других, — “я (категорически) против любого/ой/ых [Х]”, где под Х в доносах чаще всего “нарушение закона”, а в других текстах Абатурова еще и “фальсификация истории”, “сепаратизм”, “массовые беспорядки”, “насилие” и т.д. Эту конструкцию, словно магическое заклинание-оберег, Абатуров особенно часто вставляет в тексты, адресуемые “во власть”, — доносы и обращения к депутатам. Там это практически обязательное вступление или заключение. Часто с удвоением, чтоб магия точно сработала. Но и у себя в ВК (который я обкачал и тоже исследовал как корпус) Ваня Абатуров иногда тоже так пишет.
Прикол в том, что формула очень редкая. На 160 млн словоупотреблений корпуса соцсетей НКРЯ конструкция “я (категорически) против любого/ой/ых” встретилась мне лишь 13 раз во всех вариантах. А на каких-то 35 тысяч словоупотреблений в текстах “Коробковой” — больше 30 раз! То есть частотность выше на несколько порядков. И у Абатурова тоже… А еще он зачем-то постоянно вставляет эту формулу в технические описания к своим правкам в википедии (там мой скриншот есть у Бибиси в тексте, посмотрите).
Также я скачал все 555 репортажей в викиновостях, которые написал Иван Абатуров (там есть очень смешные, он использует викиновости как книгу жалоб), и искал совпадения с языком текстов Коробковой в них. Например, там есть 223 употребления слова “мол” (вообще говоря не очень принятого в новостных текстах), причем стабильно без запятых вокруг. И именно так использует “мол” Коробкова (десятки раз). В викирепортажах парочки других авторов, которых я взял для сравнения, мол вообще отсутствует. Формула “(категорически) против любых [X]” в викирепортажах Абатурова тоже есть, хотя и не от первого лица, конечно.
В этом расследовании много и других доказательств, гораздо более весомых, чем совпадения речевого портрета и стилометрическая близость. Другие участники этого расследования нашли совпадения в модели фотоаппарата, указанной в метаданных фотографий, загруженных в википедию, совпадения в IP, c которого ходят письма Абатурова и Коробковой, а также подтверждения присутствия обоих персонажей на одних и тех же мероприятиях. А еще я, копаясь в текстах ВК Абатурова, нашел удивительные совпадения в рассказах Абатурова и Коробковой об их общем дедушке — “сапёре, участнике ВОВ и сексоте НКВД”. И дедушка этот (естественно, под фамилией Абатуров) находится на сайтах “Память народа” и “Бессмертный полк”.
Подробнее о лингвистической стороне этой истории я еще напишу чуть позже. А вот пост самой Саши Архиповой об этом расследовании. Кроме того мы с Сашей планируем рассказывать, как искали Коробкову, 29 декабря онлайн в 19 мск.
А пока просто надеюсь, что где-то в Екатеринбурге одному доносчику стало страшнее жить. Кстати, адрес его мне известен.
BBC News Русская служба
«Я хочу быть ходячей прокуратурой»: кто скрывается за личностью серийной доносчицы «Анны Коробковой»?
Два года назад антрополог Александра Архипова узнала, что на нее написала донос некая «Анна Коробкова». С тех пор «Коробкова» написала десятки доносов на других людей. Архипова попыталась узнать, реальный ли это человек, чтобы понять, как устроено современное…
Кто я?
Сюда пришло много новых людей, напишу пост-знакомство. Меня зовут Даня Скоринкин, мне 35, я программирующий гуманитарий. Учился на компьютерного лингвиста в Вышке, работал в ABBYY, написал кандидатскую (10.02.21 «Прикладная и математическая лингвистика») у А.А. Бонч-Осмоловской по компьютерному моделированию системы персонажей Льва Толстого
Последние пару лет я работаю в университете Потсдама, а по выходным уже больше 6 лет делаю на добровольных началах Системный Блокъ (с командой таких же добровольцев). До 2022 работал в Вышке, преподавал Python для цифровых гуманитариев, количественный анализ текстов, корпусную лингвистику, data culture и всякое по мелочи
В этом канале я рассказываю о своих и чужих исследованиях в области Digital Humanities, о количественных методах анализа текстов, о вычислительной филологии, компьютерной лингвистике и вообще о жизни текстов, языка и литературы в эпоху Чат-гопоты, умных машин и безумных людей 🙄 А еще изредка о своей жизни в шкуре немецкого постдока🍻🥨
Сюда пришло много новых людей, напишу пост-знакомство. Меня зовут Даня Скоринкин, мне 35, я программирующий гуманитарий. Учился на компьютерного лингвиста в Вышке, работал в ABBYY, написал кандидатскую (10.02.21 «Прикладная и математическая лингвистика») у А.А. Бонч-Осмоловской по компьютерному моделированию системы персонажей Льва Толстого
Последние пару лет я работаю в университете Потсдама, а по выходным уже больше 6 лет делаю на добровольных началах Системный Блокъ (с командой таких же добровольцев). До 2022 работал в Вышке, преподавал Python для цифровых гуманитариев, количественный анализ текстов, корпусную лингвистику, data culture и всякое по мелочи
В этом канале я рассказываю о своих и чужих исследованиях в области Digital Humanities, о количественных методах анализа текстов, о вычислительной филологии, компьютерной лингвистике и вообще о жизни текстов, языка и литературы в эпоху Чат-гопоты, умных машин и безумных людей 🙄 А еще изредка о своей жизни в шкуре немецкого постдока🍻🥨
Как мы шли по «цифровым следам»👣 серийного доносчика
Расскажем вместе с Сашей Архиповой про «кейс Коробковой» уже в это воскресенье. В отличие от материала на BBC, тут будет именно с исследовательской 🔍🔬 перспективы:
Расскажем вместе с Сашей Архиповой про «кейс Коробковой» уже в это воскресенье. В отличие от материала на BBC, тут будет именно с исследовательской 🔍🔬 перспективы:
Forwarded from (Не)занимательная антропология (Alexandra Arkhipova)
А.Архипова, Д. Скоринкин. Как найти доносчика научными методами: кто такая «Анна Васильевна Коробкова»
Онлайн-лекция, 29 декабря, 17.00 по Парижу, ссылка на ютьюб будет здесь.
НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ АЛЕКСАНДРОЙ СЕРГЕЕВНОЙ АРХИПОВОЙ, СОДЕРЖАЩЕЙСЯ В РЕЕСТРЕ ИНОСТРАННЫХ АГЕНТОВ ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА АЛЕКСАНДРЫ СЕРГЕЕВНЫ АРХИПОВОЙ, СОДЕРЖАЩЕЙСЯ В РЕЕСТРЕ ИНОСТРАННЫХ АГЕНТОВ 18+
Как многие из вас знают, только что BBC написало и также сделало видео про нашей с Даней Скоринкиным расследование, доказывающее, что "Анна Коробкова" и Иван Абатуров - одно и тоже лицо.
Но многое туда не вошло, например, какое отношение имеет эпос (что? Да!) к доносам, при чем тут базы данных, как проверить гипотезу о тождестве Абатурова и Коробковой.
Если еще короче - какие научные методы использовали для поиска "Коробковой" лингвист Даниил Скоринкин (вот потрясающий канал Дани) и ваша покорная слуга.
Если еще короче - зачем вообще нужны ученые. Приходите!
Непонятная картинка - это результат кластерного стилометрического анализа, показывающий, что статья о Коробковой написана самой "Коробковой".
Приходите на онлайн-лекцию в воскресенье 29 декабря, и мы расскажем увлекательные подробности.
29 декабря, 17.00 по Парижу, 18.00 по Иерусалиму, 19.00 по Москве.
Это площадка дружественного семинара "Языки психиатрии". Если вы хотите получить ссылку, пишите @annoory (особенно если вы в РФ и все заблокировано).
Но вообще будет идти стрим лекции на ютьюб (ютьюб-канал Языки психиатрии), а ссылка на ютьюб-стрим появится здесь в 15.00 по Парижу 29 декабря.
Онлайн-лекция, 29 декабря, 17.00 по Парижу, ссылка на ютьюб будет здесь.
НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ АЛЕКСАНДРОЙ СЕРГЕЕВНОЙ АРХИПОВОЙ, СОДЕРЖАЩЕЙСЯ В РЕЕСТРЕ ИНОСТРАННЫХ АГЕНТОВ ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА АЛЕКСАНДРЫ СЕРГЕЕВНЫ АРХИПОВОЙ, СОДЕРЖАЩЕЙСЯ В РЕЕСТРЕ ИНОСТРАННЫХ АГЕНТОВ 18+
Как многие из вас знают, только что BBC написало и также сделало видео про нашей с Даней Скоринкиным расследование, доказывающее, что "Анна Коробкова" и Иван Абатуров - одно и тоже лицо.
Но многое туда не вошло, например, какое отношение имеет эпос (что? Да!) к доносам, при чем тут базы данных, как проверить гипотезу о тождестве Абатурова и Коробковой.
Если еще короче - какие научные методы использовали для поиска "Коробковой" лингвист Даниил Скоринкин (вот потрясающий канал Дани) и ваша покорная слуга.
Если еще короче - зачем вообще нужны ученые. Приходите!
Непонятная картинка - это результат кластерного стилометрического анализа, показывающий, что статья о Коробковой написана самой "Коробковой".
Приходите на онлайн-лекцию в воскресенье 29 декабря, и мы расскажем увлекательные подробности.
29 декабря, 17.00 по Парижу, 18.00 по Иерусалиму, 19.00 по Москве.
Это площадка дружественного семинара "Языки психиатрии". Если вы хотите получить ссылку, пишите @annoory (особенно если вы в РФ и все заблокировано).
Но вообще будет идти стрим лекции на ютьюб (ютьюб-канал Языки психиатрии), а ссылка на ютьюб-стрим появится здесь в 15.00 по Парижу 29 декабря.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Вдогонку к предыдущему посту: иронично, что на скриншоте из Popular Science про стилометрический деанон Джоан Роулинг, который уже лет 8 гуляет по разным моим слайдам, написано буквально “how your four-grams may be undermining your anonymous erotica-writing career” — то есть как ваши 4-граммы могут подорвать вашу карьеру анонимного автора эротики. А в нашем случае 4-граммы же подрывают “карьеру анонимного доносчика” 🤣
Изгибы советских биографий в зеркалах электронных баз
По случайному совпадению ровно в тот же день, когда на BBC вышло расследование про Абатурова-Коробкову, в научном журнале с грозным названием Slavic Military Studies вышла наша с историком Ирой Махаловой статья (а точнее, Ирина статья со мной на подпевках) о реконструкции биографий советских граждан при помощи пересечения разных биографических баз. Эта статья — один из моих редких выходов с цифрогуманитарными методами в область исторических исследований.
С расследованием об Абатурове статью роднит то, что в обоих случаях как источник использовались базы участников ВОВ, оцифрованные Минобороны (как помнят внимательные читатели, у Абатурова там нашелся дедушка). Ну и, наверно, некоторый общий вывод о том, насколько живой человек (в отличие от лакированных парадных биографий) ситуативен, изменчив и адаптивен.
В нашем исследовании мы использовали разные базы по ВОВ для полуавтоматическиого поиска людей, чьи биографические факты не бьются друг с другом. И чьи полные биографии, будучи собранными воедино при содействии цифровых методов, совершенно не укладываются в шаблонно-героические нарративы гос-официоза о безупречных “героях” и ужасных “предателях”.
Вот представьте, что есть у вас в базе участников ВОВ некий человек с довольно редкой комбинацией имени, фамилии и отчества (скажем, Иосиф Алиевич Лебедь), а также с датой и местом рождения, ну и местом призыва на войну. И есть на него, например, донесение о безвозвратных потерях — погиб, мол, в октябре 1944, похоронен в такой-то чешской деревне в могиле номер 5 возле церкви (так и писали, время военное, не до бюрократии).
Вроде ничего необычного… пока в другой базе, на этот раз уже содержащей имена подсудимых на послевоенных процессах по коллаборационизму, не всплывает такой же точно Иосиф Алиевич Лебедь, найденный по полному совпадению ФИО и года рождения. Ну и совпадение места призыва уже не оставляет сомнений. И выясняется, что в 1949 году вполне живого Лебедя допрашивали о его службе в немецкой полиции во время оккупации в 1941 году. То есть в 1941 Лебедь был полицаем, а в 1944 после деоккупации был призван в РККА и успел повоевать на правильной стороне. И что особенно пикантно, в другой базе ВОВ обнаруживается, что уже в 1986 все тот же Иосиф Алиевич Лебедь получил Орден Отечественной войны II степени (их тогда на 40-летие Победы выдали всем дожившим ветеранам).
Таких биографий мы нашли не одну, а героическая Ира Махалова их подробно исследовала, прочитав протоколы допросов. Там есть, например, человек, который сначала был мобилизован в РККА, потом попал (либо сдался) в плен, стал полицаем, участвовал в расстреле евреев в оккупации, а потом после деоккупации снова был призван в РККА и успел получить боевую награду “За боевые заслуги” в феврале 1945-го…
В общем, как я уже сказал, главное, чему меня (дилетанта в области исторической науки) учит это исследование, — это ситуативность человека. Все меньше я верю в статичных “героев” и “злодеев”. Живая жизнь — всегда сложная динамика свойств личности и обстоятельств. Помнить об этом — неплохое лекарство от статичных черно-белых пропагандистских нарративов со всех сторон: и про “менталитет”, и про “орков”, и про “укронацистов”. Даже самые настоящие всамделишные нацисты были совершенно обычными людьми, которых совратили власть, страх, обида, жадность и самые пошлые бытовые обстоятельства. И на любой другой войне солдаты — обычные люди.
По случайному совпадению ровно в тот же день, когда на BBC вышло расследование про Абатурова-Коробкову, в научном журнале с грозным названием Slavic Military Studies вышла наша с историком Ирой Махаловой статья (а точнее, Ирина статья со мной на подпевках) о реконструкции биографий советских граждан при помощи пересечения разных биографических баз. Эта статья — один из моих редких выходов с цифрогуманитарными методами в область исторических исследований.
С расследованием об Абатурове статью роднит то, что в обоих случаях как источник использовались базы участников ВОВ, оцифрованные Минобороны (как помнят внимательные читатели, у Абатурова там нашелся дедушка). Ну и, наверно, некоторый общий вывод о том, насколько живой человек (в отличие от лакированных парадных биографий) ситуативен, изменчив и адаптивен.
В нашем исследовании мы использовали разные базы по ВОВ для полуавтоматическиого поиска людей, чьи биографические факты не бьются друг с другом. И чьи полные биографии, будучи собранными воедино при содействии цифровых методов, совершенно не укладываются в шаблонно-героические нарративы гос-официоза о безупречных “героях” и ужасных “предателях”.
Вот представьте, что есть у вас в базе участников ВОВ некий человек с довольно редкой комбинацией имени, фамилии и отчества (скажем, Иосиф Алиевич Лебедь), а также с датой и местом рождения, ну и местом призыва на войну. И есть на него, например, донесение о безвозвратных потерях — погиб, мол, в октябре 1944, похоронен в такой-то чешской деревне в могиле номер 5 возле церкви (так и писали, время военное, не до бюрократии).
Вроде ничего необычного… пока в другой базе, на этот раз уже содержащей имена подсудимых на послевоенных процессах по коллаборационизму, не всплывает такой же точно Иосиф Алиевич Лебедь, найденный по полному совпадению ФИО и года рождения. Ну и совпадение места призыва уже не оставляет сомнений. И выясняется, что в 1949 году вполне живого Лебедя допрашивали о его службе в немецкой полиции во время оккупации в 1941 году. То есть в 1941 Лебедь был полицаем, а в 1944 после деоккупации был призван в РККА и успел повоевать на правильной стороне. И что особенно пикантно, в другой базе ВОВ обнаруживается, что уже в 1986 все тот же Иосиф Алиевич Лебедь получил Орден Отечественной войны II степени (их тогда на 40-летие Победы выдали всем дожившим ветеранам).
Таких биографий мы нашли не одну, а героическая Ира Махалова их подробно исследовала, прочитав протоколы допросов. Там есть, например, человек, который сначала был мобилизован в РККА, потом попал (либо сдался) в плен, стал полицаем, участвовал в расстреле евреев в оккупации, а потом после деоккупации снова был призван в РККА и успел получить боевую награду “За боевые заслуги” в феврале 1945-го…
В общем, как я уже сказал, главное, чему меня (дилетанта в области исторической науки) учит это исследование, — это ситуативность человека. Все меньше я верю в статичных “героев” и “злодеев”. Живая жизнь — всегда сложная динамика свойств личности и обстоятельств. Помнить об этом — неплохое лекарство от статичных черно-белых пропагандистских нарративов со всех сторон: и про “менталитет”, и про “орков”, и про “укронацистов”. Даже самые настоящие всамделишные нацисты были совершенно обычными людьми, которых совратили власть, страх, обида, жадность и самые пошлые бытовые обстоятельства. И на любой другой войне солдаты — обычные люди.
Taylor & Francis
Reconstructing the Lives of Soviet Citizens: Digital Humanities Methods in the Cross-Check of Databases of World War II
This article aims to show how methods from Digital Humanities can be used to gather information from different databases to investigate and reconstruct the biographies of the Soviet citizens who to...
Скандальная слава соучастника деанонимизации доносчицы “Коробковой” продолжает преследовать вашего мамкиного лингвиста-расследователя 😅 Теперь вот я сходил с рассказом о стилометрии, атрибуции авторства, компьютерной филологии и компьютерной лингвистике в подкаст “Похажи язык” к замечательной Ксении Busy English Fox. Обсуждали:
— Что такое компьютерная лингвистика и почему ею часто занимаются вовсе не лингвисты🧑💻
— Чем занимаются программирующие литературоведы? 💻📚
— Как любовь к определённым предлогам помогла разгадать загадку из истории первых лет становления США🗽
— Почему у Сергея Лукьяненко все подряд “исполинское” 🪐 (реально, поищите в любом его тексте!)
— Почему старые методы атрибуции авторства через редкие конструкции и сочетания похожи на поиск родимых пятен, а современный стилометрический метод — на анализ ДНК.. 🔬🧬
— .. и чем же стилометрия все-таки отличается от анализа ДНК в худшую сторону (увы.. или ура?) 🤷
— Как доносчик Абатуров сам помог себя обнаружить 🎯
— Что “драйвило” Скоринкина и Архипову в поиске “Коробковой”⚡⚡
— Как в установлении истины помог пример великого лингвиста А.А. Зализняка 🎓
Слушайте на всех подкаст-платформах 🙂
— Что такое компьютерная лингвистика и почему ею часто занимаются вовсе не лингвисты🧑💻
— Чем занимаются программирующие литературоведы? 💻📚
— Как любовь к определённым предлогам помогла разгадать загадку из истории первых лет становления США🗽
— Почему у Сергея Лукьяненко все подряд “исполинское” 🪐 (реально, поищите в любом его тексте!)
— Почему старые методы атрибуции авторства через редкие конструкции и сочетания похожи на поиск родимых пятен, а современный стилометрический метод — на анализ ДНК.. 🔬🧬
— .. и чем же стилометрия все-таки отличается от анализа ДНК в худшую сторону (увы.. или ура?) 🤷
— Как доносчик Абатуров сам помог себя обнаружить 🎯
— Что “драйвило” Скоринкина и Архипову в поиске “Коробковой”⚡⚡
— Как в установлении истины помог пример великого лингвиста А.А. Зализняка 🎓
Слушайте на всех подкаст-платформах 🙂
3 выпуск 3 сезона
Язык на страже справедливости, или как вычислить автора по его текстам — Подкаст «Покажи язык»
Гость: Даниил Скоринкин, кандидат филологических наук, компьютерный лингвист, главред онлайн-журнала "Системный Блокъ"О чём поговорили:что такое компьютерная лингвистика и почему ей часто занимаются вовсе не лингвисты,почему компьютерная филология (н
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
(продолжение)
🚬 Атмосферные детали: и ChatGPT, и писатель вводят в рассказ похожие мелкие декорации: в сгенерированном рассказе тишину в университетской аудитории нарушает «лишь слегка вибрирующий шум кондиционера», а у Александра Сорге герои сидят на кухне, где «жужжит над столом одинокая лампочка». Похоже, такие детали а ля Дэвид Линч стали клишированными и их легко вынимают из общего «коллективного бессознательного» и люди, и нейросети.
Итого:
У писателя-человека получился емкий и погружающий в себя кусочек антиутопии, хотя и с шаблонными деталями. Нейросеть, в отличие от человека, не придумывает мир сама, она по умолчанию создает самый заурядный реалистичный сеттинг и конструирует его самыми стандартными литературными приемами: нарратив в третьем лице, прошедшее время и натужный хэппи энд в конце 🤡
🚬 Атмосферные детали: и ChatGPT, и писатель вводят в рассказ похожие мелкие декорации: в сгенерированном рассказе тишину в университетской аудитории нарушает «лишь слегка вибрирующий шум кондиционера», а у Александра Сорге герои сидят на кухне, где «жужжит над столом одинокая лампочка». Похоже, такие детали а ля Дэвид Линч стали клишированными и их легко вынимают из общего «коллективного бессознательного» и люди, и нейросети.
Итого:
У писателя-человека получился емкий и погружающий в себя кусочек антиутопии, хотя и с шаблонными деталями. Нейросеть, в отличие от человека, не придумывает мир сама, она по умолчанию создает самый заурядный реалистичный сеттинг и конструирует его самыми стандартными литературными приемами: нарратив в третьем лице, прошедшее время и натужный хэппи энд в конце 🤡
Системный Блокъ
«С экзамена в тюрьму с ChatGPT»: чей рассказ лучше, нейросети или писателя? - Системный Блокъ Писатель против нейросети: чей рассказ…
Еще до появления нашумевшей ChatGPT нейросети генерировали связные тексты на разные темы и в разных жанрах. Сейчас с помощью больших языковых моделей (LLM) можно написать мотивационное письмо, оригинальный рецепт вареников, диплом… и даже художественное произведение.…
Please open Telegram to view this post
VIEW IN TELEGRAM
Тем временем в Потсдаме после примерно месяца тухлой апрельской погоды дали настоящий снег — и ваш ебобо-филолог забыл про все свои исследовательские, расследовательские и прочие там просветительские дела — и побежал принимать снеговые ванны!🛁 ❄️☃️😶🌫️
#не_про_dh
#не_про_dh
Forwarded from Литоисчисление
Пушкин и геометрия, или Что бы еще посчитать в литературе?
Еще до появления "сферического коня в вакууме" Яков Перельман придумал "конический холм на равнине".
Демонстрируя широкий кругозор, он составил задачки еще и по Толстому и Шекспиру.
Перельман Я.И. Новый задачник по геометрии. 1925
*Ответ в первом комментарии.
Еще до появления "сферического коня в вакууме" Яков Перельман придумал "конический холм на равнине".
Демонстрируя широкий кругозор, он составил задачки еще и по Толстому и Шекспиру.
Перельман Я.И. Новый задачник по геометрии. 1925
*Ответ в первом комментарии.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сколько статей пишут о Пушкине каждый год? Чем отличается образ Пушкина в учебниках, в медиа и в науке? Как ученые используют цифровые коллекции пушкинских текстов? Зачем нужен проект Пушкин ⟨цифровой⟩?
Жизнь классики в цифровом пространстве — давно волнующая меня тема (я какое-то время занимался цифровой реинкарнацией текстов Льва Толстого), а вот в пятницу 7 марта будет по этой теме мероприятие в Digital-Humanities-центре ИТМО, вокруг проекта Пушкин ⟨цифровой⟩. Пишут, что можно заглянуть онлайн без регистрации и СМС 💁♂️
🗓7 марта, пятница
🕐13:00 мск
📍DH-центр ИТМО (Санкт-Петербург, Биржевая, 16) и онлайн
——
Чтобы прийти в DH-центр ИТМО очно, надо зарегистрироваться по ссылке.
Для онлайн-слушателей регистрация не обязательна, ко встрече можно сразу подключиться здесь
Жизнь классики в цифровом пространстве — давно волнующая меня тема (я какое-то время занимался цифровой реинкарнацией текстов Льва Толстого), а вот в пятницу 7 марта будет по этой теме мероприятие в Digital-Humanities-центре ИТМО, вокруг проекта Пушкин ⟨цифровой⟩. Пишут, что можно заглянуть онлайн без регистрации и СМС 💁♂️
🗓7 марта, пятница
🕐13:00 мск
📍DH-центр ИТМО (Санкт-Петербург, Биржевая, 16) и онлайн
——
Чтобы прийти в DH-центр ИТМО очно, надо зарегистрироваться по ссылке.
Для онлайн-слушателей регистрация не обязательна, ко встрече можно сразу подключиться здесь