Литературщина от GPT: иллюстрации к посту выше ⬆️
Сами тексты мы выложили тут, все желающие могут их тоже поисследовоать: https://github.com/lucagiovannini7/ai-storyteller
Сами тексты мы выложили тут, все желающие могут их тоже поисследовоать: https://github.com/lucagiovannini7/ai-storyteller
#личное
Сижу читаю разные DH-статьи и просто литературоведческие статьи про диалоги и диалогизм в русских романах, особенно у Толстого и Достоевского. Но никакая статья не родится. Вместо науки мозг постоянно съезжает на невеселые мысли о том, куда ж нам плыть и кем быть. Первые года полтора после эмиграции как-то прошли на адреналине и внезапности происходящего, теперь же накрывает тоскливое осознание тупика. В фейсбуке о таком теперь писать стыдно, пока на людей падают ракеты, напишу хоть тут.
В целом чувствую себя человеком, который опоздал на несколько поездов подряд и теперь не может решить, какой из них догонять и стоит ли пытаться (а поезда тем временем расходятся все дальше в N разных сторон). Размышлять “кавалергард ты будешь или дипломат” в 34 года как будто совсем неприлично, но и не размышлять не получается. Распутье-тупик видится мне следующим образом:
1. С одной стороны, оставлены надежды хоть как-то заскочить в последний вагон технологического паровоза. В 2012 я ради этого поступил в NLP-магистратуру, в 2013-м пошел работать в ABBYY, в 2014 наивно полагал, что задача решена… Формально это было так: я был инженером в большой глобальной IT-компании. По факту оказалось, что я запрыгнул в отцепленный вагон «лингвистического» NLP, который укатили на запасной путь в эпоху машин-лернинга и нейросетей. Сообразить это вовремя не получилось, перестроиться тоже, и лучшее, что я смог, — выпрыгнуть из вагона и перебраться в Digital Humanities, которым и посвящен этот канал.
2. Как видно из названия канала, к Digital Humanities у меня отношение сложное. Главным образом мне непонятно, зачем кому-то нужно знать то, что пытается выяснить Digital Humanities, и как это знание хоть кому-то может помочь. А заниматься игрой в бисер за общественный счет на настолько неблагоустроенной планете мне по-прежнему не хочется.
3. С годами я начал понимать ценность классической гуманитарной науки — ну просто по факту того, что к её объекту есть в обществе какой-то трепет. Важен людям почему-то Толстой — немножко отраженной важности можешь поймать и ты, исследуя Толстого и зная о нем кратно больше среднего человека (функция живой ячейки памяти). Этого было бы достаточно, но проблема в том, что я не настоящий сварщик: никогда на филолога и не учился, а только пришел поковырять Толстого NLP-методами, когда это выглядело свежо и хайпово. Написал диссер, но глубины и научной эрудиции не накопил. Оглядывая необъятные горы написанного о том же русском реалистическом романе, с ужасом думаю, что тут читать лет 10 и не перечитать…
4. Иногда кажется, что при таких исходных данных (jack of all trades, master of none) надо плюнуть на все попытки занятия какой-либо наукой и, пользуясь попутно-накопленным портфолио главреда @sysblok, просто укатиться куда-то в научпоп и надеяться, что сборка научно-популярного контента чуть облагородит коммунальное инфопространство in the long run.
5. Но тут вступают страхи того самого long run-а: допустим, сейчас так поступить можно, а что будет через 10-15 лет? Кому в сжавшейся российской экономике 2040 года будет нужен 50-летний научпоп-журналист? В академии при всей её тоске и бюрократизированности хотя бы понятно, какую ценность можно приносить в 50-60 лет (махать седой бородой и изображать УчОнОгО на бессмысленных заседаниях — унылая, но декоративно нужная функция). А вне её? Непонятно. А способен ли я еще остаться в академии, учитывая п.3 и п.1? Совсем туманно.
С такими мыслями я вошел в новый год. Справедливости ради — все это полная ерунда на фоне войн, заложников, гуманитарных и климатических катастроф. Тем не менее спасибо что дочитали: поделившись с вами, мне стало легче ☺️ Всем добра и мира!
Сижу читаю разные DH-статьи и просто литературоведческие статьи про диалоги и диалогизм в русских романах, особенно у Толстого и Достоевского. Но никакая статья не родится. Вместо науки мозг постоянно съезжает на невеселые мысли о том, куда ж нам плыть и кем быть. Первые года полтора после эмиграции как-то прошли на адреналине и внезапности происходящего, теперь же накрывает тоскливое осознание тупика. В фейсбуке о таком теперь писать стыдно, пока на людей падают ракеты, напишу хоть тут.
В целом чувствую себя человеком, который опоздал на несколько поездов подряд и теперь не может решить, какой из них догонять и стоит ли пытаться (а поезда тем временем расходятся все дальше в N разных сторон). Размышлять “кавалергард ты будешь или дипломат” в 34 года как будто совсем неприлично, но и не размышлять не получается. Распутье-тупик видится мне следующим образом:
1. С одной стороны, оставлены надежды хоть как-то заскочить в последний вагон технологического паровоза. В 2012 я ради этого поступил в NLP-магистратуру, в 2013-м пошел работать в ABBYY, в 2014 наивно полагал, что задача решена… Формально это было так: я был инженером в большой глобальной IT-компании. По факту оказалось, что я запрыгнул в отцепленный вагон «лингвистического» NLP, который укатили на запасной путь в эпоху машин-лернинга и нейросетей. Сообразить это вовремя не получилось, перестроиться тоже, и лучшее, что я смог, — выпрыгнуть из вагона и перебраться в Digital Humanities, которым и посвящен этот канал.
2. Как видно из названия канала, к Digital Humanities у меня отношение сложное. Главным образом мне непонятно, зачем кому-то нужно знать то, что пытается выяснить Digital Humanities, и как это знание хоть кому-то может помочь. А заниматься игрой в бисер за общественный счет на настолько неблагоустроенной планете мне по-прежнему не хочется.
3. С годами я начал понимать ценность классической гуманитарной науки — ну просто по факту того, что к её объекту есть в обществе какой-то трепет. Важен людям почему-то Толстой — немножко отраженной важности можешь поймать и ты, исследуя Толстого и зная о нем кратно больше среднего человека (функция живой ячейки памяти). Этого было бы достаточно, но проблема в том, что я не настоящий сварщик: никогда на филолога и не учился, а только пришел поковырять Толстого NLP-методами, когда это выглядело свежо и хайпово. Написал диссер, но глубины и научной эрудиции не накопил. Оглядывая необъятные горы написанного о том же русском реалистическом романе, с ужасом думаю, что тут читать лет 10 и не перечитать…
4. Иногда кажется, что при таких исходных данных (jack of all trades, master of none) надо плюнуть на все попытки занятия какой-либо наукой и, пользуясь попутно-накопленным портфолио главреда @sysblok, просто укатиться куда-то в научпоп и надеяться, что сборка научно-популярного контента чуть облагородит коммунальное инфопространство in the long run.
5. Но тут вступают страхи того самого long run-а: допустим, сейчас так поступить можно, а что будет через 10-15 лет? Кому в сжавшейся российской экономике 2040 года будет нужен 50-летний научпоп-журналист? В академии при всей её тоске и бюрократизированности хотя бы понятно, какую ценность можно приносить в 50-60 лет (махать седой бородой и изображать УчОнОгО на бессмысленных заседаниях — унылая, но декоративно нужная функция). А вне её? Непонятно. А способен ли я еще остаться в академии, учитывая п.3 и п.1? Совсем туманно.
С такими мыслями я вошел в новый год. Справедливости ради — все это полная ерунда на фоне войн, заложников, гуманитарных и климатических катастроф. Тем не менее спасибо что дочитали: поделившись с вами, мне стало легче ☺️ Всем добра и мира!
Please open Telegram to view this post
VIEW IN TELEGRAM
Обнаруженная мной параллель между “Твин Пиксом” (1990) и “Физиологией Петербурга” (1845) сегодня была подсвечена прекрасным каналом “Некраткие содержания”. А еще туда нативно вставили выпуск подкаста “Лига айвы”, где я рассказываю Борису Орехову про мои университеты и чем Потсдам отличается от Вышки. И “Содержания”, и “Лигу” всем рекомендую
Telegram
Некраткие содержания 🎙
Некраткие содержания ‒ это неочевидное в прозе и поэзии. Это сам процесс чтения, заметки на полях собраний сочинений или в чертогах разума.
Здесь говорят о литературе свежо и по-новому, с вниманием к деталям и без штампов.
Здесь говорят о литературе свежо и по-новому, с вниманием к деталям и без штампов.
Forwarded from Некраткие содержания 🎙 (Boris Orekhov)
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда мы готовили сегодняшний материал в Системном Блоке про удивительные экспонаты музейного Госкаталога РФ, меня совершенно покорила композиция из моржового клыка «В ожидании санрейса» 1967 года. Во-первых, это классная демонстрация ценности оцифровки, ведь чтобы увидеть этот экспонат вживую, нужно добраться (по воздуху или по воде) до самого восточного населённого пункта России — села Уэлен на Чукотке. А теперь вот он, доступен мне по клику мышки из середины Европы (ну ладно, с VPN, мы нынче недружественные 👹). Во-вторых, я был впечатлен подробностью описания экспоната в метаданных:
Подставка стоит на округленных четырех ножках на ней стоят фигуры из клыка моржа: три человека, три оленя, две нарты и собака. Слева направо стоит нарта на ней лежит ребенок, укутанный до головы, с левой стороны от нее сидит на коленях человек в национальной одежде, а впереди в обеих руках держит сумку – аптечку, впереди облокоченный об полозья лежит хорей. Впереди нарты лежит олень, ноги положив под себя, а передняя правая вытянута, голова повернута влево, по левую сторону вторые нарты. Возле нарт стоит человек в национальной одежде, ноги расставлены, левая рука поставлена возле лба и смотрит вдаль, в правой руке держит хорей. Рядом с ним стоит олень, высунув язык. Третьи олень лежит, ноги убрав под себя, голова развернута в сторону стоящего оленя. Собака лежит, голову повернув влево. На одной стороне отгравировано: сцена жизни тундровых чукчей: едущие с пассажирами две собачьи упряжки, а впереди их встречают три человека возле двух яранг. Вторая сторона: самолет, люди с носилками несут больного, две оленьи упряжки едут, две яранги и пастух пасет стадо.
Это ж надо было заморочиться с описанием… И ведь до ChatGPT 😅
А в третьих, просто посмотрите, как это тонко вырезано:
Подставка стоит на округленных четырех ножках на ней стоят фигуры из клыка моржа: три человека, три оленя, две нарты и собака. Слева направо стоит нарта на ней лежит ребенок, укутанный до головы, с левой стороны от нее сидит на коленях человек в национальной одежде, а впереди в обеих руках держит сумку – аптечку, впереди облокоченный об полозья лежит хорей. Впереди нарты лежит олень, ноги положив под себя, а передняя правая вытянута, голова повернута влево, по левую сторону вторые нарты. Возле нарт стоит человек в национальной одежде, ноги расставлены, левая рука поставлена возле лба и смотрит вдаль, в правой руке держит хорей. Рядом с ним стоит олень, высунув язык. Третьи олень лежит, ноги убрав под себя, голова развернута в сторону стоящего оленя. Собака лежит, голову повернув влево. На одной стороне отгравировано: сцена жизни тундровых чукчей: едущие с пассажирами две собачьи упряжки, а впереди их встречают три человека возле двух яранг. Вторая сторона: самолет, люди с носилками несут больного, две оленьи упряжки едут, две яранги и пастух пасет стадо.
Это ж надо было заморочиться с описанием… И ведь до ChatGPT 😅
А в третьих, просто посмотрите, как это тонко вырезано:
Telegram
Системный Блокъ
Столетний пряник и космическая матрешка: 10 необычных экспонатов Госкаталога
Где можно найти и матрёшку с мордой собаки Стрелки, и сборник суеверий из XVIII века? Рассказываем о необычных экспонатах Госкаталога музейного фонда России — цифрового архива экспонатов…
Где можно найти и матрёшку с мордой собаки Стрелки, и сборник суеверий из XVIII века? Рассказываем о необычных экспонатах Госкаталога музейного фонда России — цифрового архива экспонатов…
Please open Telegram to view this post
VIEW IN TELEGRAM
Корпусный тест Тьюринга и вежливые уши GPT
Постоянно вижу новости о том, как в научных статьях, рецензиях на статьи, деловых письмах и прочих “ответственных” текстах просвечивают белыми нитками языковые модели. Вот например на картинке (из этой статьи) статистика употребления некоторых типично GPT-шных слов в рецензиях на конференции ICLR. Вежливые академические прилагательные вроде meticulous или commendable внезапно становятся теми самыми “ушами”, которые торчат из текстов.
Так что пусть классификаторы пока плохо справляются с разделением отдельных текстов на сгенерированные и человеческие, но на уровне корпусов (т.е. больших массивов текстов) все видно. И меня это радует: корпусные методы вновь оказываются актуальными как вспомогательный инструмент в дивном новом мире языковых моделей (о чем уже как-то писала Таня @rybolos_channel).
Глядишь и стилометрия тоже пригодится — как вы помните, она, к примеру, отличает GPT-шные имитации писателей от настоящих текстов этих писателей (хотя эта задача легче).
Постоянно вижу новости о том, как в научных статьях, рецензиях на статьи, деловых письмах и прочих “ответственных” текстах просвечивают белыми нитками языковые модели. Вот например на картинке (из этой статьи) статистика употребления некоторых типично GPT-шных слов в рецензиях на конференции ICLR. Вежливые академические прилагательные вроде meticulous или commendable внезапно становятся теми самыми “ушами”, которые торчат из текстов.
Так что пусть классификаторы пока плохо справляются с разделением отдельных текстов на сгенерированные и человеческие, но на уровне корпусов (т.е. больших массивов текстов) все видно. И меня это радует: корпусные методы вновь оказываются актуальными как вспомогательный инструмент в дивном новом мире языковых моделей (о чем уже как-то писала Таня @rybolos_channel).
Глядишь и стилометрия тоже пригодится — как вы помните, она, к примеру, отличает GPT-шные имитации писателей от настоящих текстов этих писателей (хотя эта задача легче).
P.S. Мир переходит на африканский английский?
Избыточно вежливый расшаркивающийся английский от GPT породил в твиттере дискуссию о том, насколько на стилистику языковых моделей повлияли особенности английского в Африке.
Вот например Пол Грэм получил какое-то интересное письмо с предложением, а потом увидел там конструкцию delve into и разочаровался, уверившись, что это ChatGPT. Дальше началась дискуссия (местами не вполне политкорректная), что такой вычурный английский характерен для Нигерии и других стран Африки, а еще для Индии. Ну а как известно, люди для дообучения моделей на человеческих инструкциях берутся не в Лондоне и не в Нью-Йорке..
Впрочем, с учетом демографии, переход на африканские варианты английского все равно дело времени 💯
Избыточно вежливый расшаркивающийся английский от GPT породил в твиттере дискуссию о том, насколько на стилистику языковых моделей повлияли особенности английского в Африке.
Вот например Пол Грэм получил какое-то интересное письмо с предложением, а потом увидел там конструкцию delve into и разочаровался, уверившись, что это ChatGPT. Дальше началась дискуссия (местами не вполне политкорректная), что такой вычурный английский характерен для Нигерии и других стран Африки, а еще для Индии. Ну а как известно, люди для дообучения моделей на человеческих инструкциях берутся не в Лондоне и не в Нью-Йорке..
Впрочем, с учетом демографии, переход на африканские варианты английского все равно дело времени 💯
5 коллекций данных для цифрового гуманитария
Интернет набит данными, но очень немногие датасеты сделаны гуманитариями и для гуманитариев. Собрал пять чисто гуманитарных источников данных, которые хорошо использовать в курсе анализа данных или программирования на DH-программах.
🎭 1. DraCor — корпуса и датасеты вокруг драматических текстов (с уклоном в network analysis, но не только). Один из очень немногих проектов, сумевших на базе “гуманитарного” стандарта TEI построить классную экосистему гуманитарных данных. Самые приятные данные дракора — это метаданные для каждого корпуса, которые вы можете скачать прямо на страничке корпуса, например, вот табличка для русского корпуса: https://dracor.org/api/v1/corpora/rus/metadata/csv Тут и классические метаданые вроде дат написания и публикации, и сетевые вроде плотности социальной сети в пьесе, и например соотношение мужской и женской речи…
Еще для каждой отдельной пьесы можно скачать сетевые данные (в gexf/csv/gml), речь персонажей, сценические ремарки… Ну и полную разметку в TEI, из которой все эти данные произрастают.
✒️ 2. Репозиторий открытых данных по русской литературе и фольклору — проект Цифровой лабы Пушкинского дома (ИРЛИ РАН), где цифровые филологи и не только публикуют датасеты и (иногда) код к своим исследованиям. Своего рода гуманитарный papers with code. Вот, например, данные и код к статье Кирилла Маслинского о том, какие животные чаще встречаются в каких жанрах детской литературе.
А еще там публикует новые датасеты сам ПушДом. Многие из них называются очень романтично. Скажем, Забытые романы русских писателей из фондов Пушкинского Дома (1857–1917)… Датасет с таким названием нужно обрабатывать под звуки романса “Отцвели уж давно хризантемы в саду”🍂
📚 3. European Literary Text Collection (ELTeC) — корпуса европейских романов, собранные с прицелом на репрезентативность и сопоставимость друг с другом. Целью было найти для каждой европейской литературы по 100 романов в диапазоне 1840-1920, чтобы они покрывали период более-менее равномерно, чтобы были представлены не только писатели-мужчины, чтобы бли длиной не менее 10000 слов и т.д. Не для всех корпусов это удалось, а русский корпус там совсем странный, но тем не менее — одна из немногих попыток сделать датасет, пригодный для “компаративистики” by design.
🏛 4. Госкаталог Музейного фонда РФ —свалка датасет по всему, что оцифровано во всех музеях России. Не так часто в нашей области можно найти наборы данных, где записей не тысячи, но миллионы. Качество очень разное, репрезентативность тоже под вопросом, но жемчужин в этом океане данных тоже море. Одну я здесь уже описывал.
🗺 5. Геоданные DHCLOUD. Тут лежат литературные карты в geojson, сделанные студентами гуманитарного факультета Вышки под руководством Бориса Орехова. Картографированы самые разные тексты: от маршрута Афанасия Никитина и до Приключений Капитана Врунгеля ⛵🐳
Интернет набит данными, но очень немногие датасеты сделаны гуманитариями и для гуманитариев. Собрал пять чисто гуманитарных источников данных, которые хорошо использовать в курсе анализа данных или программирования на DH-программах.
🎭 1. DraCor — корпуса и датасеты вокруг драматических текстов (с уклоном в network analysis, но не только). Один из очень немногих проектов, сумевших на базе “гуманитарного” стандарта TEI построить классную экосистему гуманитарных данных. Самые приятные данные дракора — это метаданные для каждого корпуса, которые вы можете скачать прямо на страничке корпуса, например, вот табличка для русского корпуса: https://dracor.org/api/v1/corpora/rus/metadata/csv Тут и классические метаданые вроде дат написания и публикации, и сетевые вроде плотности социальной сети в пьесе, и например соотношение мужской и женской речи…
Еще для каждой отдельной пьесы можно скачать сетевые данные (в gexf/csv/gml), речь персонажей, сценические ремарки… Ну и полную разметку в TEI, из которой все эти данные произрастают.
✒️ 2. Репозиторий открытых данных по русской литературе и фольклору — проект Цифровой лабы Пушкинского дома (ИРЛИ РАН), где цифровые филологи и не только публикуют датасеты и (иногда) код к своим исследованиям. Своего рода гуманитарный papers with code. Вот, например, данные и код к статье Кирилла Маслинского о том, какие животные чаще встречаются в каких жанрах детской литературе.
А еще там публикует новые датасеты сам ПушДом. Многие из них называются очень романтично. Скажем, Забытые романы русских писателей из фондов Пушкинского Дома (1857–1917)… Датасет с таким названием нужно обрабатывать под звуки романса “Отцвели уж давно хризантемы в саду”🍂
📚 3. European Literary Text Collection (ELTeC) — корпуса европейских романов, собранные с прицелом на репрезентативность и сопоставимость друг с другом. Целью было найти для каждой европейской литературы по 100 романов в диапазоне 1840-1920, чтобы они покрывали период более-менее равномерно, чтобы были представлены не только писатели-мужчины, чтобы бли длиной не менее 10000 слов и т.д. Не для всех корпусов это удалось, а русский корпус там совсем странный, но тем не менее — одна из немногих попыток сделать датасет, пригодный для “компаративистики” by design.
🏛 4. Госкаталог Музейного фонда РФ —
🗺 5. Геоданные DHCLOUD. Тут лежат литературные карты в geojson, сделанные студентами гуманитарного факультета Вышки под руководством Бориса Орехова. Картографированы самые разные тексты: от маршрута Афанасия Никитина и до Приключений Капитана Врунгеля ⛵🐳
dracor.org
DraCor – Drama Corpora Project
DraCor is not a website. DraCor is a showcase for the concept of Programmable Corpora. It revolves around an API that provides data extracted from TEI-encoded corpora. This website – dracor.org – uses this API to showcase some of the extractable information.…
Please open Telegram to view this post
VIEW IN TELEGRAM
Последние два дня был на конференции Conference of Computational Literary Studies (даже почейрил одну секцию). CCLS всегда короткая, но очень качественная. В этом году было всего 9 докладов, но каждое исследование стоит внимания.
В частности, интересная работа про измерение литературной репутации по метрикам экспертной престижности vs crowd-based популярности vs представленности в библиотеках (ссылка) и про контраст массовой и элитарной литературы со Стивеном Кингом как точкой отсчета (ссылка). А еще прикольное исследование про разную географию в американском фикшне и нон-фикшне (в фикшене география очень маленькая, сжатая и неглобальная относительно нон-фикшена, поэтому статья называется “Small Worlds. Measuring the Mobility of Characters in English-Language Fiction”, но это не единственный вывод там).
Все статьи с конференции уже доступны как препринты в предконференционном сборнике. Вот тут одной пдф-кой, а тут в программе — отдельными.
После конференции они пройдут еще одну стадию ревью и выйдут в прекрасном журнале JCLS (с которого стоит брать пример всем журналам в идеальном мире)
В частности, интересная работа про измерение литературной репутации по метрикам экспертной престижности vs crowd-based популярности vs представленности в библиотеках (ссылка) и про контраст массовой и элитарной литературы со Стивеном Кингом как точкой отсчета (ссылка). А еще прикольное исследование про разную географию в американском фикшне и нон-фикшне (в фикшене география очень маленькая, сжатая и неглобальная относительно нон-фикшена, поэтому статья называется “Small Worlds. Measuring the Mobility of Characters in English-Language Fiction”, но это не единственный вывод там).
Все статьи с конференции уже доступны как препринты в предконференционном сборнике. Вот тут одной пдф-кой, а тут в программе — отдельными.
После конференции они пройдут еще одну стадию ревью и выйдут в прекрасном журнале JCLS (с которого стоит брать пример всем журналам в идеальном мире)
Завтра в 18:30 по Берлину / 19:30 по Москве у нас будет онлайн-доклад Агаты Холобут и Яна Рыбицкого (со-автор библиотеки stylo и специалист по стилометрии перевода) про количественный анализ того, как кинематограф меняет, адаптирует и трансформирует диалоги из литературного текста (на примере экранизаций “Гордости и предубеждения”), а также что происходит при их переводе на другие языки. Регистрация чтобы послушать доклад — по ссылке
Доклад будет на английском языке
Доклад будет на английском языке
Пропасть между интеллектуальностью и разумом (мета-пост в процессе искания себя)
Еду сейчас читать keynote в Варшаве и, как это часто бывает у меня в поездах, вместо работы думаю, как же жить и кем быть. Я люблю преподавать и хотел бы к этому вернуться в будущемкогда кончится война. Но вопрос, который не дает мне покоя, — это как понять, что ты преподаешь не бессмысленную фигню. Которую преподаешь просто потому, что умеешь её и не умеешь другое.
Мне кажется, что пропасть между формальной интеллектуальностью человека (или иной сущности) и способностью создавать своей работой ценность для другого человека (которая мне и кажется реальной разумностью и реальной целью alignment-а с другим людьми) стала ну совсем гигантской. Вот по всем формальным критериям я имею полное право преподавать в каком-нибудь российском вузе. Я типа кандидат наук, у меня полный порядок с публикациями, по вышкинским меркам они даже превосходные (сообщают, что один мой коллега получает за нашу с ним статью некую “мега-надбавку”), меня шесть раз выбирали “лучшим преподавателем”… Но на самом деле я никогда не был так потерян, как сейчас, и совершенно не представляю, что из того что я умею реально могло бы понадобиться студентам, и уж точно не уверен, надо ли их этому чему-то учить.
Как странно жить в 2024 году однако
Еду сейчас читать keynote в Варшаве и, как это часто бывает у меня в поездах, вместо работы думаю, как же жить и кем быть. Я люблю преподавать и хотел бы к этому вернуться в будущем
Мне кажется, что пропасть между формальной интеллектуальностью человека (или иной сущности) и способностью создавать своей работой ценность для другого человека (которая мне и кажется реальной разумностью и реальной целью alignment-а с другим людьми) стала ну совсем гигантской. Вот по всем формальным критериям я имею полное право преподавать в каком-нибудь российском вузе. Я типа кандидат наук, у меня полный порядок с публикациями, по вышкинским меркам они даже превосходные (сообщают, что один мой коллега получает за нашу с ним статью некую “мега-надбавку”), меня шесть раз выбирали “лучшим преподавателем”… Но на самом деле я никогда не был так потерян, как сейчас, и совершенно не представляю, что из того что я умею реально могло бы понадобиться студентам, и уж точно не уверен, надо ли их этому чему-то учить.
Как странно жить в 2024 году однако
Когда мир был добрее, трава — зеленее, а DH — не таким ёбаным, у нас с коллегами в DH-центре Вышки было что-то типа игры в “русское бинго”. При поездке на любую международную DH-конферению нужно было дождаться на докладе упоминения а) Владимира Проппа и б) Михаила Бахтина. В расширенную версию бинго входят еще Юрий Лотман и Виктор Шкловский (это как бы DH фулл-хаус ♠️♣️♥️♦️), в королевскую — Борис Ярхо (флеш-рояль👑). Ну так вот на TEI конференции в Буэнос-Айресе, где я провожу эту неделю, Пропп уже есть! ✔️ 🥰
На этой неделе написал важный для меня и довольно личный текст — о том, как лингвисты строили Вавилонскую башню NLP в компании ABBYY.
Советую этот печальный лонгрид для употребления за вечерним чаем 🍂☕️ Для разбавления горечи досыпал туда мемасов с Хомским и запоздалых признаний в любви 💔
Советую этот печальный лонгрид для употребления за вечерним чаем 🍂☕️ Для разбавления горечи досыпал туда мемасов с Хомским и запоздалых признаний в любви 💔
Системный Блокъ
Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP - Системный Блокъ
Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации сотрудников по паспорту улеглись, хочется поговорить о более…