Тут Льву Толстому исполнилось 195 лет. В связи с этим я запилил 12-минутное видео про бесконечную борьбу Толстого с властью и Толстовский Анархизм™
Лев Николаевич Толстой: бунтующий, экстремистский, твой🔥🖤👊
https://youtu.be/Wg_SbNjAwn0
Лев Николаевич Толстой: бунтующий, экстремистский, твой🔥🖤👊
https://youtu.be/Wg_SbNjAwn0
YouTube
«Патриотизм есть рабство»: Лев Толстой как анархист и противник любой власти
Единственное убеждение, которое Лев Толстой не менял за всю свою долгую жизнь, — это неприятие власти. Власти над собой, власти государства, вообще власти одного человека над другим человеком. Толстой сначала сам всю жизнь выламывается из-под чужой власти…
А вы знали про крутейшую украинскую программистку Катерину Ющенко? Там потрясающая судьба: от ареста отца в 1937 за типа “украинский национализм”, изгнания из Киевского университета в возрасте 17 лет и работы взрывником (взрывницей?) на угольной шахте в Узбекистане в 1943-м — до разработки кода для МЭСМ в 1952-м, изобретения Указателя как типа данных в 1955-м и соавторства книги по ЭВМ "Киев" с Виктором Глушковым (тем, который потом будет пытаться пилить советский Арпанет) в 1962-м.
Радуюсь, что успел ее подкинуть во вчерашний материал о женщинах-программистках в компанию к Аде Лавлейс, Грейс Хоппер и прочим.
Радуюсь, что успел ее подкинуть во вчерашний материал о женщинах-программистках в компанию к Аде Лавлейс, Грейс Хоппер и прочим.
Перевариваю тот факт, что в корпусе TEI-размеченных пьес DraCor, который мы придумали в 2017-2018 году и который с моего легкого языка так называется, уже 16 подкорпусов, 14 языков и 44534 драматических персонажа (из которых 26623 явно мужских и 10600 явно женских). И для каждой из 3121 пьес вы можете скачать сеть совместной встречаемости персонажей, реплики, разбитые по гендеру, сценические ремарки отдельно от текста и т.п.фичи, невозможные без TEI-разметки 😎🧑💻 (Все цифры на сегодня, 29 сентября 2023)
А впрочем, как вы понимаете, проект этот абсолютно бесполезен, как и все эти ваши Digital Humanities. Он только добавляет еще больше CO2 в атмосферу нашей планеты, стремительно превращающуюся из просто парника в кровавую баню ☠️☠️☠️ Хорошей пятницы и счастливых вам выходных!🥳
P.S. Да, если кто-то готов научить меня делать в Питоне невсратые барплоты, буду рад. Seaborn не предлагать.
А впрочем, как вы понимаете, проект этот абсолютно бесполезен, как и все эти ваши Digital Humanities. Он только добавляет еще больше CO2 в атмосферу нашей планеты, стремительно превращающуюся из просто парника в кровавую баню ☠️☠️☠️ Хорошей пятницы и счастливых вам выходных!🥳
P.S. Да, если кто-то готов научить меня делать в Питоне невсратые барплоты, буду рад. Seaborn не предлагать.
Придумали тут в комментах, что книжку о том, как языковые модели научились говорить и какие смешные ошибки делал ИИ в “детстве”, можно будет назвать “ЧатДжипити — от двух до пяти”… Учитывая текущую нумерацию версий GPT, осталось недолго
Муж, он же Стива, он же Степан Аркадьевич
Это GPT-4 размечает и идентифицирует персонажей в русском тексте (я просил разметить персонажей квадратными скобками, включая анафорические упоминания, и присовить сквозной ID каждому уникальному персонажу). Имхо круто. Что тут важно:
1. это сделано не в один запрос, а питоновским циклом через API OpenAI. Т.е. ID реально сквозной, а число абзацев, которые можно так обработать, ограничено только моим кошельком и рейт-лимитами на GPT-4.
2. Увы, GPT-3.5, которая кратно дешевле, пока не тянет в этой задаче. А с GPT-4 на всего Толстого моих карманных может и не хватить…
3. Выше был подан и самый первый абзац Анны Карениной (Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему”), про него сеть сказала “К сожалению, в представленном вами тексте нет упоминаний персонажей. Вы можете предоставить другой фрагмент текста, где есть персонажи, и я с удовольствием помогу с их выделением.” Культура отказа выучена прекрасно👌
Это GPT-4 размечает и идентифицирует персонажей в русском тексте (я просил разметить персонажей квадратными скобками, включая анафорические упоминания, и присовить сквозной ID каждому уникальному персонажу). Имхо круто. Что тут важно:
1. это сделано не в один запрос, а питоновским циклом через API OpenAI. Т.е. ID реально сквозной, а число абзацев, которые можно так обработать, ограничено только моим кошельком и рейт-лимитами на GPT-4.
2. Увы, GPT-3.5, которая кратно дешевле, пока не тянет в этой задаче. А с GPT-4 на всего Толстого моих карманных может и не хватить…
3. Выше был подан и самый первый абзац Анны Карениной (Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему”), про него сеть сказала “К сожалению, в представленном вами тексте нет упоминаний персонажей. Вы можете предоставить другой фрагмент текста, где есть персонажи, и я с удовольствием помогу с их выделением.” Культура отказа выучена прекрасно👌
Цифровой филолог (Даня Скоринкин)
Муж, он же Стива, он же Степан Аркадьевич Это GPT-4 размечает и идентифицирует персонажей в русском тексте (я просил разметить персонажей квадратными скобками, включая анафорические упоминания, и присовить сквозной ID каждому уникальному персонажу). Имхо…
Для тех, кто не знаком с историей компьютерной лингвистики/NLP последних лет, хочу пояснить, чем так впечатляет результат. Еще 5-7 лет назад просто связать местоимение “он” с именем в тексте было отдельной гигантской задачей (разрешение анафоры), по которой проводились соревнования, под которую писались специально заточенные инструменты, системы и программные библиотеки. Результаты были так себе. Отдельно от нее решалось собственно задача NER — распознавание в тексте людей и прочих именованных сущностей. Потом эти штуки мучительно скручивались вместе, писались всякие надстройки для локальной и глобальной идентификации “кореферентных цепочек” упоминаний персон… И когда буквально несколько лет спустя все эти задачи скопом решает модель, которую вообще этому никто специально не учил, которую даже русскому-то языку учили постольку–поскольку и для которой это какие-нибудь 0.05% всех ее знаний-умений, — это конечно космический прогресс в мире NLP
Жизненная DH-задачка на регулярные выражения (не GPT единым живет DH-разметка).
Дано: в тексте многие имена написаны р а з р я д к о й через пробел
Задача: удалить такие пробелы, используя только регекспы. Для простоты примем, что нас волнуют только слова длиной от 5 букв(имен короче там нет)
Какие я придумал неработающие варианты:
1. Сначала я надеялся, что во вторую группу регекспа на картинке 1 должны попадать все предпробельные буквы. И что можно сделать замену, сохранив из этого регекспа только группы 2 и 4. Но в группе 2 остается только последняя такая буква... (к)
2. Затем я думал находить пары "буква+пробел" по одной, смотреть, что у них впереди достаточно таких же пар (напр., через lookahead как на картинке 2) и заменять их поодиночке. Но так заменяются только часть пробелов, а потом оставшиеся 1-3 будут уже неотличимы от обычных межсловных
Как бы вы поступили?
Если что, решение на чистых регекспах в чистом блокноте без программирования было найдено. Хотя и слегка костыльное. Расскажу.
Дано: в тексте многие имена написаны р а з р я д к о й через пробел
Задача: удалить такие пробелы, используя только регекспы. Для простоты примем, что нас волнуют только слова длиной от 5 букв(имен короче там нет)
Какие я придумал неработающие варианты:
1. Сначала я надеялся, что во вторую группу регекспа на картинке 1 должны попадать все предпробельные буквы. И что можно сделать замену, сохранив из этого регекспа только группы 2 и 4. Но в группе 2 остается только последняя такая буква... (к)
2. Затем я думал находить пары "буква+пробел" по одной, смотреть, что у них впереди достаточно таких же пар (напр., через lookahead как на картинке 2) и заменять их поодиночке. Но так заменяются только часть пробелов, а потом оставшиеся 1-3 будут уже неотличимы от обычных межсловных
Как бы вы поступили?
1824 год, Фаддей Булгарин описывает опыт работы с ChatGPT:
Машина для делания прозы хотя устроена была точно таким же образом, но отличалась тем, что для определения тактов имела трубу и барабан, а не фортепьяно и что на косточках написаны были не одни только слова, но даже целые речения и мысли, выбранные из разных авторов.
- Нельзя ли сочинить что-нибудь на заданный предмет? - спросил я.
- Очень можно, - отвечал мой проводник, - что вам угодно?
Тут я хотел привести в затруднение проводника и доказать неудобство сочинительных машин. Я избрал предметом сочинения описание моей родины,любопытствуя, каким образом машина отделается от этой задачи и опишет место не виданное и, может быть, не слыханное ни одним из жителей полярных стран.
Проводник достал с полки словарь древней географии, отыскал в нём название моего отечественного города, подобрал написанные на косточках речения, сходные с книгой, взял принадлежащие к описанию собственные имена, множество прилагательных, несколько вспомогательных глаголов и кучу готовых речений, бросил всё это в ящик, пустил пружину, барабан ударил поход, труба заиграла марш, и косточки начали сыпаться.
Представьте себе моё удивление, когда чрез полчаса вышло довольно подробное описание города, в котором я родился. С первого взгляда показалось мне, что оно не уступает произведениям посредственных умов; но, прочитав со вниманием, я тотчас приметил напыщенность, пошлые изречения, чужие мысли и недостаток связи с целым, которые обнаруживали действие машины, а не ума.
[Ф.В. Булгарин. Правдоподобные небылицы, или Странствование по свету в ХХIX веке (1824)]
UPD: в комментах сообщают, что это придумал Свифт, а Булгарин позаимствовал
Кстати, в СисБлоке есть еще примеры футуристики от авторов Пушкинской эпохи, вот тут.
Машина для делания прозы хотя устроена была точно таким же образом, но отличалась тем, что для определения тактов имела трубу и барабан, а не фортепьяно и что на косточках написаны были не одни только слова, но даже целые речения и мысли, выбранные из разных авторов.
- Нельзя ли сочинить что-нибудь на заданный предмет? - спросил я.
- Очень можно, - отвечал мой проводник, - что вам угодно?
Тут я хотел привести в затруднение проводника и доказать неудобство сочинительных машин. Я избрал предметом сочинения описание моей родины,любопытствуя, каким образом машина отделается от этой задачи и опишет место не виданное и, может быть, не слыханное ни одним из жителей полярных стран.
Проводник достал с полки словарь древней географии, отыскал в нём название моего отечественного города, подобрал написанные на косточках речения, сходные с книгой, взял принадлежащие к описанию собственные имена, множество прилагательных, несколько вспомогательных глаголов и кучу готовых речений, бросил всё это в ящик, пустил пружину, барабан ударил поход, труба заиграла марш, и косточки начали сыпаться.
Представьте себе моё удивление, когда чрез полчаса вышло довольно подробное описание города, в котором я родился. С первого взгляда показалось мне, что оно не уступает произведениям посредственных умов; но, прочитав со вниманием, я тотчас приметил напыщенность, пошлые изречения, чужие мысли и недостаток связи с целым, которые обнаруживали действие машины, а не ума.
[Ф.В. Булгарин. Правдоподобные небылицы, или Странствование по свету в ХХIX веке (1824)]
UPD: в комментах сообщают, что это придумал Свифт, а Булгарин позаимствовал
Кстати, в СисБлоке есть еще примеры футуристики от авторов Пушкинской эпохи, вот тут.
Системный Блокъ
Как писатели XIX века предсказали мессенджеры, интернет на Марсе и нейросети
Научная фантастика в русской литературе имеет давнюю историю. Писатели XIX и первой половины XX века предсказали многое: от телевидения до космических полетов. А насколько хорошо они предвидели современные информационные технологии? Удивительно, но современники…
Please open Telegram to view this post
VIEW IN TELEGRAM
Литературщина от GPT: иллюстрации к посту выше ⬆️
Сами тексты мы выложили тут, все желающие могут их тоже поисследовоать: https://github.com/lucagiovannini7/ai-storyteller
Сами тексты мы выложили тут, все желающие могут их тоже поисследовоать: https://github.com/lucagiovannini7/ai-storyteller
#личное
Сижу читаю разные DH-статьи и просто литературоведческие статьи про диалоги и диалогизм в русских романах, особенно у Толстого и Достоевского. Но никакая статья не родится. Вместо науки мозг постоянно съезжает на невеселые мысли о том, куда ж нам плыть и кем быть. Первые года полтора после эмиграции как-то прошли на адреналине и внезапности происходящего, теперь же накрывает тоскливое осознание тупика. В фейсбуке о таком теперь писать стыдно, пока на людей падают ракеты, напишу хоть тут.
В целом чувствую себя человеком, который опоздал на несколько поездов подряд и теперь не может решить, какой из них догонять и стоит ли пытаться (а поезда тем временем расходятся все дальше в N разных сторон). Размышлять “кавалергард ты будешь или дипломат” в 34 года как будто совсем неприлично, но и не размышлять не получается. Распутье-тупик видится мне следующим образом:
1. С одной стороны, оставлены надежды хоть как-то заскочить в последний вагон технологического паровоза. В 2012 я ради этого поступил в NLP-магистратуру, в 2013-м пошел работать в ABBYY, в 2014 наивно полагал, что задача решена… Формально это было так: я был инженером в большой глобальной IT-компании. По факту оказалось, что я запрыгнул в отцепленный вагон «лингвистического» NLP, который укатили на запасной путь в эпоху машин-лернинга и нейросетей. Сообразить это вовремя не получилось, перестроиться тоже, и лучшее, что я смог, — выпрыгнуть из вагона и перебраться в Digital Humanities, которым и посвящен этот канал.
2. Как видно из названия канала, к Digital Humanities у меня отношение сложное. Главным образом мне непонятно, зачем кому-то нужно знать то, что пытается выяснить Digital Humanities, и как это знание хоть кому-то может помочь. А заниматься игрой в бисер за общественный счет на настолько неблагоустроенной планете мне по-прежнему не хочется.
3. С годами я начал понимать ценность классической гуманитарной науки — ну просто по факту того, что к её объекту есть в обществе какой-то трепет. Важен людям почему-то Толстой — немножко отраженной важности можешь поймать и ты, исследуя Толстого и зная о нем кратно больше среднего человека (функция живой ячейки памяти). Этого было бы достаточно, но проблема в том, что я не настоящий сварщик: никогда на филолога и не учился, а только пришел поковырять Толстого NLP-методами, когда это выглядело свежо и хайпово. Написал диссер, но глубины и научной эрудиции не накопил. Оглядывая необъятные горы написанного о том же русском реалистическом романе, с ужасом думаю, что тут читать лет 10 и не перечитать…
4. Иногда кажется, что при таких исходных данных (jack of all trades, master of none) надо плюнуть на все попытки занятия какой-либо наукой и, пользуясь попутно-накопленным портфолио главреда @sysblok, просто укатиться куда-то в научпоп и надеяться, что сборка научно-популярного контента чуть облагородит коммунальное инфопространство in the long run.
5. Но тут вступают страхи того самого long run-а: допустим, сейчас так поступить можно, а что будет через 10-15 лет? Кому в сжавшейся российской экономике 2040 года будет нужен 50-летний научпоп-журналист? В академии при всей её тоске и бюрократизированности хотя бы понятно, какую ценность можно приносить в 50-60 лет (махать седой бородой и изображать УчОнОгО на бессмысленных заседаниях — унылая, но декоративно нужная функция). А вне её? Непонятно. А способен ли я еще остаться в академии, учитывая п.3 и п.1? Совсем туманно.
С такими мыслями я вошел в новый год. Справедливости ради — все это полная ерунда на фоне войн, заложников, гуманитарных и климатических катастроф. Тем не менее спасибо что дочитали: поделившись с вами, мне стало легче ☺️ Всем добра и мира!
Сижу читаю разные DH-статьи и просто литературоведческие статьи про диалоги и диалогизм в русских романах, особенно у Толстого и Достоевского. Но никакая статья не родится. Вместо науки мозг постоянно съезжает на невеселые мысли о том, куда ж нам плыть и кем быть. Первые года полтора после эмиграции как-то прошли на адреналине и внезапности происходящего, теперь же накрывает тоскливое осознание тупика. В фейсбуке о таком теперь писать стыдно, пока на людей падают ракеты, напишу хоть тут.
В целом чувствую себя человеком, который опоздал на несколько поездов подряд и теперь не может решить, какой из них догонять и стоит ли пытаться (а поезда тем временем расходятся все дальше в N разных сторон). Размышлять “кавалергард ты будешь или дипломат” в 34 года как будто совсем неприлично, но и не размышлять не получается. Распутье-тупик видится мне следующим образом:
1. С одной стороны, оставлены надежды хоть как-то заскочить в последний вагон технологического паровоза. В 2012 я ради этого поступил в NLP-магистратуру, в 2013-м пошел работать в ABBYY, в 2014 наивно полагал, что задача решена… Формально это было так: я был инженером в большой глобальной IT-компании. По факту оказалось, что я запрыгнул в отцепленный вагон «лингвистического» NLP, который укатили на запасной путь в эпоху машин-лернинга и нейросетей. Сообразить это вовремя не получилось, перестроиться тоже, и лучшее, что я смог, — выпрыгнуть из вагона и перебраться в Digital Humanities, которым и посвящен этот канал.
2. Как видно из названия канала, к Digital Humanities у меня отношение сложное. Главным образом мне непонятно, зачем кому-то нужно знать то, что пытается выяснить Digital Humanities, и как это знание хоть кому-то может помочь. А заниматься игрой в бисер за общественный счет на настолько неблагоустроенной планете мне по-прежнему не хочется.
3. С годами я начал понимать ценность классической гуманитарной науки — ну просто по факту того, что к её объекту есть в обществе какой-то трепет. Важен людям почему-то Толстой — немножко отраженной важности можешь поймать и ты, исследуя Толстого и зная о нем кратно больше среднего человека (функция живой ячейки памяти). Этого было бы достаточно, но проблема в том, что я не настоящий сварщик: никогда на филолога и не учился, а только пришел поковырять Толстого NLP-методами, когда это выглядело свежо и хайпово. Написал диссер, но глубины и научной эрудиции не накопил. Оглядывая необъятные горы написанного о том же русском реалистическом романе, с ужасом думаю, что тут читать лет 10 и не перечитать…
4. Иногда кажется, что при таких исходных данных (jack of all trades, master of none) надо плюнуть на все попытки занятия какой-либо наукой и, пользуясь попутно-накопленным портфолио главреда @sysblok, просто укатиться куда-то в научпоп и надеяться, что сборка научно-популярного контента чуть облагородит коммунальное инфопространство in the long run.
5. Но тут вступают страхи того самого long run-а: допустим, сейчас так поступить можно, а что будет через 10-15 лет? Кому в сжавшейся российской экономике 2040 года будет нужен 50-летний научпоп-журналист? В академии при всей её тоске и бюрократизированности хотя бы понятно, какую ценность можно приносить в 50-60 лет (махать седой бородой и изображать УчОнОгО на бессмысленных заседаниях — унылая, но декоративно нужная функция). А вне её? Непонятно. А способен ли я еще остаться в академии, учитывая п.3 и п.1? Совсем туманно.
С такими мыслями я вошел в новый год. Справедливости ради — все это полная ерунда на фоне войн, заложников, гуманитарных и климатических катастроф. Тем не менее спасибо что дочитали: поделившись с вами, мне стало легче ☺️ Всем добра и мира!
Please open Telegram to view this post
VIEW IN TELEGRAM