Благодаря OpenAI GPT-3 + DALL·E-2 даже я могу изготовить иллюстрированный сборник детских стихотворений по-английски! Или это OpenAI GPT-3 + DALL·E-2 могут благодаря мне?..
Попробуем оживить этот канал! Торжественно клянусь, что он не превратится в хроники ChatGPT, (но будет много на эту тему, да).
Сегодня — подкаст «Книжный чел» с Гришей Мастридером:
https://www.youtube.com/watch?v=bu1-omo296s
Первый раз мы с ним очень интересно поговорили в 2019 году, сейчас настало время повторить (но не повториться!). Заимствования, ударение в слове «кринж», изменения в языке, ну и ChatGPT, конечно.
Сегодня — подкаст «Книжный чел» с Гришей Мастридером:
https://www.youtube.com/watch?v=bu1-omo296s
Первый раз мы с ним очень интересно поговорили в 2019 году, сейчас настало время повторить (но не повториться!). Заимствования, ударение в слове «кринж», изменения в языке, ну и ChatGPT, конечно.
YouTube
Александр Пиперски: ChatGPT и русский язык. Книжный чел #99
Курс "Цифровой креатор": https://academy.mustreader.com/creatorcourse2023
Образовательный эфир "Креатор": https://www.youtube.com/live/4x2Od9LjEaw?feature=share
Телеграм-рассылка «Цифровой креатор»: https://yangx.top/Digital_Creator_Bot
Целый час мы с лауреатом…
Образовательный эфир "Креатор": https://www.youtube.com/live/4x2Od9LjEaw?feature=share
Телеграм-рассылка «Цифровой креатор»: https://yangx.top/Digital_Creator_Bot
Целый час мы с лауреатом…
БЕЗУМНЫЙ ЗООПАРК
Что общего между голубем и телёнком? Общее между ними — это дельфин.
Пророк Иона, по-древнееврейски yōwnāh, провёл трое суток в желудке большой рыбы, dāḡ gāḏōwl. Мы привыкли считать, что это формально говоря не рыба, а кит, но про её точную видовую принадлежность учёные разных специальностей спорят уже много веков: может, какой-то кит, может, белая акула (как из «Челюстей»), а может, это вообще выдумка. Но по-турецки именем Ионы названо то крупное животное, которое по-настоящему часто встречается в Средиземном море, — дельфин: yunus balığı, буквально ‘Ионина рыба’, а обычно просто yunus, буквально ‘Иона’. Всё бы хорошо, но имя пророка yōwnāh по-древнееврейски значит ‘голубь’.
Древнегреческий дельфин — δελφίς — содержит индоевропейский корень *gʷelbʰ-. Однокоренное ему русское слово — это жёлоб, а δελφίς — это буквально ‘желобной’: он живородящий, то есть рождает своих детёнышей из жёлоба. А в германских языках от того же корня происходит название детёныша — англ. calf, нем. Kalb ‘телёнок’
Что общего между голубем и телёнком? Общее между ними — это дельфин.
Пророк Иона, по-древнееврейски yōwnāh, провёл трое суток в желудке большой рыбы, dāḡ gāḏōwl. Мы привыкли считать, что это формально говоря не рыба, а кит, но про её точную видовую принадлежность учёные разных специальностей спорят уже много веков: может, какой-то кит, может, белая акула (как из «Челюстей»), а может, это вообще выдумка. Но по-турецки именем Ионы названо то крупное животное, которое по-настоящему часто встречается в Средиземном море, — дельфин: yunus balığı, буквально ‘Ионина рыба’, а обычно просто yunus, буквально ‘Иона’. Всё бы хорошо, но имя пророка yōwnāh по-древнееврейски значит ‘голубь’.
Древнегреческий дельфин — δελφίς — содержит индоевропейский корень *gʷelbʰ-. Однокоренное ему русское слово — это жёлоб, а δελφίς — это буквально ‘желобной’: он живородящий, то есть рождает своих детёнышей из жёлоба. А в германских языках от того же корня происходит название детёныша — англ. calf, нем. Kalb ‘телёнок’
Часто говорят, что в русском языке сложно обратиться к незнакомому человеку. Валерий Ефремов в 2009 году писал, что происходит «экспансия просторечных форм обращения к незнакомым людям типа мужчина, женщина и — с некоторыми оговорками — молодой человек. <…> К сожалению, современный речевой этикет, в отличие от достаточно жестко структурированного дореволюционного, не имеет полноценного и удобного для любой ситуации оклика незнакомого человека».
В последней фразе, мне кажется, очень удачно употреблено слово оклик: полезно отличать выделяющее обращение (оклик), когда надо привлечь внимание человека, от поддерживающего обращения, когда ты уже разговариваешь с человеком и при этом как-то его называешь. Кажется, что по-русски в последние годы в ситуации оклика незнакомого человека мужчина / женщина и молодой человек / девушка уверенно закрепились (во всяком случае, я в них ничего дурного и ненейтрального не вижу), а вот стандартных поддерживающих обращений к незнакомым не существует: просто разговариваешь с ними чаще всего на вы, реже на ты, говоришь спасибо и пожалуйста без обращения, и всё. Обращение брат очень социально специфично, а слова типа командир я даже не уверен, что слышал вживую.
По-немецки, кажется, нет ни оклика, ни поддерживающего обращения. Функцию оклика выступает Hallo! или Entschuldigung! ‘извините!’.
По-турецки оклики и поддерживающие обращения в целом совпадают: в обеих функциях используются термины родства — abi ‘старший брат’ для мужчины лет до 60, amca ‘·дядя по отцу’ или baba ‘отец’ для мужчины постарше; abla ‘старшая сестра’ для женщины лет до 60, teyze ‘тётя по матери’ для женщины постарше.
А по-английски плохо с окликом, зато удивительное разнообразие поддерживающих обращений: за 12 часов, что я сегодня успел провести в Англии, меня назвали pal, mate, sir и buddy (в не очень длинных репликах типа Sorry, pal и Cheers, buddy). А в прошлом году, когда мы ездили на остров Мэн, коллеги женского пола с удивлением отмечали, что их называют love.
Вот такая маленькая не очень репрезентативная типология.
В последней фразе, мне кажется, очень удачно употреблено слово оклик: полезно отличать выделяющее обращение (оклик), когда надо привлечь внимание человека, от поддерживающего обращения, когда ты уже разговариваешь с человеком и при этом как-то его называешь. Кажется, что по-русски в последние годы в ситуации оклика незнакомого человека мужчина / женщина и молодой человек / девушка уверенно закрепились (во всяком случае, я в них ничего дурного и ненейтрального не вижу), а вот стандартных поддерживающих обращений к незнакомым не существует: просто разговариваешь с ними чаще всего на вы, реже на ты, говоришь спасибо и пожалуйста без обращения, и всё. Обращение брат очень социально специфично, а слова типа командир я даже не уверен, что слышал вживую.
По-немецки, кажется, нет ни оклика, ни поддерживающего обращения. Функцию оклика выступает Hallo! или Entschuldigung! ‘извините!’.
По-турецки оклики и поддерживающие обращения в целом совпадают: в обеих функциях используются термины родства — abi ‘старший брат’ для мужчины лет до 60, amca ‘·дядя по отцу’ или baba ‘отец’ для мужчины постарше; abla ‘старшая сестра’ для женщины лет до 60, teyze ‘тётя по матери’ для женщины постарше.
А по-английски плохо с окликом, зато удивительное разнообразие поддерживающих обращений: за 12 часов, что я сегодня успел провести в Англии, меня назвали pal, mate, sir и buddy (в не очень длинных репликах типа Sorry, pal и Cheers, buddy). А в прошлом году, когда мы ездили на остров Мэн, коллеги женского пола с удивлением отмечали, что их называют love.
Вот такая маленькая не очень репрезентативная типология.
СТИЛОМЕТРИЯ И ЖИЗНЬ (часть 1)
На сайте Kyiv Post 16 августа была опубликована статья Алексея Боровского (Олексій Боровський) «Is Jailed Alexei Navalny Really Writing All of His Public Messages?», в которой компьютерными методами анализируются посты Алексея Навального. Исследователь приходит к выводу, что тюремные посты Навального больше похожи на тексты, написанные Георгием Албуровым*, чем на тексты самого Навального, которые тот писал на свободе. Другие кандидаты на роль автора, которых рассматривает Боровский, — это Леонид Волков*, Мария Певчих*, Любовь Соболь* и Иван Жданов*. Более подробная версия должна быть опубликована в августе в украинском журнале, название которого пока не сообщается.
Александр Плющев* и Татьяна Фельгенгауэр* для своего Breakfast Show! взяли обстоятельные комментарии об этом исследовании у Георгия Албурова* и компьютерного лингвиста Даниила Скоринкина. Албуров* отрицает своё авторство, а Скоринкин задаёт несколько важных вопросов к методологии и изложению результатов и анонсирует, что в ближайшие дни Системный Блокъ попробует воспроизвести исследование. Вот вкратце ключевые сложности, которые видит Даниил Скоринкин:
— неизвестно, на каком в точности наборе текстов проводилось исследование;
— методы определения авторства хорошо работают на длинных текстах, но нет уверенности, что собранных Боровским текстов достаточно для надёжных выводов;
— есть погрешности в опубликованной таблице с расстояниями между авторами.
Подробный критический разбор с мини-репликацией почти сразу же сделала Александра Ершова. Системный Блокъ собирает корпус текстов Навального и потенциальных кандидатов на авторство его текстов (там есть и авторы, которых Боровский не рассматривал: Юлия Навальная и Руслан Шаведдинов*). Я с нетерпением жду результатов работы коллег.
А пока что позволю себе отметить четыре проблемных пункта, которые лично мне кажутся важными. Они касаются не только постов Навального, но и вообще стилометрии и публичного восприятия исследований в области компьютерной лингвистики.
1. Магия цифр. «Key: Number > 0, it is the same text; Number < 1, the same author composed the texts; Number > 1.5, different authors composed the texts» — так написано под таблицей с числами в исходной статье. К сожалению, совершенно неясно, что значат эти числа: какая конкретно метрика используется (у классической дельты Берроуза есть десятки вариантов), частоты каких слов считаются и т. д. и т. п. (об этом же пишет и Александра Ершова) — но на широкую публику любые цифры производят сильное впечатление. Хочется надеяться, что в будущей журнальной публикации будут раскрыты все подробности.
2. Сходство или вероятность? Большинство современных стилометрических исследований не отвечает на вопрос, с какой вероятностью тексты были написаны одним автором. Обычно строится таблица с расстояниями, как в статье Алексея Боровского, а затем она преобразуется в дерево, на котором более похожие тексты располагаются ближе друг к другу — и чаще всего оказывается, что рядом на дереве висят тексты одного автора. Такое дерево можно увидеть, например, в статье Системного Блока про стилометрию; в докладе Штефани Эверт и соавторов на с. 3–4 есть целых три таких дерева, где авторство распределяется идеально. Но, как говорится в том же докладе сразу после деревьев, их статистическая значимость — это отдельный вопрос, которым исследователи редко задаются. В нашем случае ещё важнее то, что расстояния — это неинтерпретируемые числа, а деревья — их визуализации, но мы совершенно не понимаем, с какой вероятностью два текста, оказавшиеся рядом на дереве, действительно написаны одним автором: это 30%? 90%? 99,9999%?
(продолжение: часть 2)
* Физические лица, признанные иностранными агентами.
На сайте Kyiv Post 16 августа была опубликована статья Алексея Боровского (Олексій Боровський) «Is Jailed Alexei Navalny Really Writing All of His Public Messages?», в которой компьютерными методами анализируются посты Алексея Навального. Исследователь приходит к выводу, что тюремные посты Навального больше похожи на тексты, написанные Георгием Албуровым*, чем на тексты самого Навального, которые тот писал на свободе. Другие кандидаты на роль автора, которых рассматривает Боровский, — это Леонид Волков*, Мария Певчих*, Любовь Соболь* и Иван Жданов*. Более подробная версия должна быть опубликована в августе в украинском журнале, название которого пока не сообщается.
Александр Плющев* и Татьяна Фельгенгауэр* для своего Breakfast Show! взяли обстоятельные комментарии об этом исследовании у Георгия Албурова* и компьютерного лингвиста Даниила Скоринкина. Албуров* отрицает своё авторство, а Скоринкин задаёт несколько важных вопросов к методологии и изложению результатов и анонсирует, что в ближайшие дни Системный Блокъ попробует воспроизвести исследование. Вот вкратце ключевые сложности, которые видит Даниил Скоринкин:
— неизвестно, на каком в точности наборе текстов проводилось исследование;
— методы определения авторства хорошо работают на длинных текстах, но нет уверенности, что собранных Боровским текстов достаточно для надёжных выводов;
— есть погрешности в опубликованной таблице с расстояниями между авторами.
Подробный критический разбор с мини-репликацией почти сразу же сделала Александра Ершова. Системный Блокъ собирает корпус текстов Навального и потенциальных кандидатов на авторство его текстов (там есть и авторы, которых Боровский не рассматривал: Юлия Навальная и Руслан Шаведдинов*). Я с нетерпением жду результатов работы коллег.
А пока что позволю себе отметить четыре проблемных пункта, которые лично мне кажутся важными. Они касаются не только постов Навального, но и вообще стилометрии и публичного восприятия исследований в области компьютерной лингвистики.
1. Магия цифр. «Key: Number > 0, it is the same text; Number < 1, the same author composed the texts; Number > 1.5, different authors composed the texts» — так написано под таблицей с числами в исходной статье. К сожалению, совершенно неясно, что значат эти числа: какая конкретно метрика используется (у классической дельты Берроуза есть десятки вариантов), частоты каких слов считаются и т. д. и т. п. (об этом же пишет и Александра Ершова) — но на широкую публику любые цифры производят сильное впечатление. Хочется надеяться, что в будущей журнальной публикации будут раскрыты все подробности.
2. Сходство или вероятность? Большинство современных стилометрических исследований не отвечает на вопрос, с какой вероятностью тексты были написаны одним автором. Обычно строится таблица с расстояниями, как в статье Алексея Боровского, а затем она преобразуется в дерево, на котором более похожие тексты располагаются ближе друг к другу — и чаще всего оказывается, что рядом на дереве висят тексты одного автора. Такое дерево можно увидеть, например, в статье Системного Блока про стилометрию; в докладе Штефани Эверт и соавторов на с. 3–4 есть целых три таких дерева, где авторство распределяется идеально. Но, как говорится в том же докладе сразу после деревьев, их статистическая значимость — это отдельный вопрос, которым исследователи редко задаются. В нашем случае ещё важнее то, что расстояния — это неинтерпретируемые числа, а деревья — их визуализации, но мы совершенно не понимаем, с какой вероятностью два текста, оказавшиеся рядом на дереве, действительно написаны одним автором: это 30%? 90%? 99,9999%?
(продолжение: часть 2)
* Физические лица, признанные иностранными агентами.
СТИЛОМЕТРИЯ И ЖИЗНЬ (часть 2)
(начало: часть 1)
3. Вера в могущество науки преувеличена. «Хочется просто поставить точку в этом странном разгоне <…>, — говорит Татьяна Фельгенгауэр*, — хочется как-то раз и навсегда сказать: „Ребят, вот есть авторитетный научный разбор, закончили“». Мне бы тоже хотелось верить в то, что стилометрия может предложить авторитетный научный разбор, но увы: объективные успехи стилометрии сильно преувеличены. В статьях о стилометрии обычно рассматриваются искусственные случаи, в которых ответ известен заранее: примерно как рассказывает Даниил Скоринкин в своём интервью, возьмём три романа Толстого, три романа Достоевского, а ещё про один роман, про который мы знаем, кто его написал, пусть машина определит. Машина и определяет, но нового знания мы не получаем.
Когда речь заходит о новом знании, обычно вспоминают одни и те же истории. Так, никакой рассказ о стилометрии не обходится без Federalist Papers конца XVIII века. Это 77 статей, авторство которых принадлежит трём американским отцам-основателям, но про 12 текстов неизвестно в точности, кто их написал. В 1963 году Фредерик Мостеллер и Дэвид Уоллес посчитали частоты слов в этих статьях и заявили, что автором спорных текстов был Джеймс Мэдисон (кстати, возращаясь к пункту 2: Мостеллер и Уоллес как раз формулировали свои результаты в терминах вероятностей, в отличие от более новых стилометристов). Этот результат пользуется большим уважением, но так никогда и не был подтверждён извне — а вообще-то очень хотелось бы, чтобы, например, нашлись черновики Мэдисона и стало понятно, что метод правда работает. А самый известный и чуть ли не единственный случай с внешним подтверждением стилометрии — это Роберт Гэлбрейт, в котором Патрик Юола в 2013 году сумел распознать Джоан Роулинг.
4. Реальность сложнее стилометрии. Стилометрическое исследование обычно исходит из того, что текст написал какой-то автор. В случае Роберта Гэлбрейта это так и было — да, роман «Зов кукушки» взяла и написала Роулинг. Но с текстами Навального ситуация может быть более сложной: возможно, часть текстов из тюрьмы написана им, а часть — не им; возможно, что публикаторы вносят в них сильную правку; возможны и разные другие сценарии. Это вполне обычная практика в политической жизни: «Навальный это политик и институт. понятно что у него есть команда и она в том числе делает соцсети. что такого-то», — пишет Даниил Скоринкин. Это игра без правил, в которой стилометрия бессильна.
Но, конечно, критика и сомнения не делают статью Боровского менее интересной и важной. Может быть, главная ценность исследования даже не в ответе, а в том, что автор попробовал применить стилометрию к этому вопросу. А ещё есть надежда, что когда-нибудь мы узнаем подлинную историю текстов Навального из тюрьмы — и вдруг работа Боровского или кого-то, кто решить воспроизвести её, станет ещё одним классическим примером стилометрии, подтверждённой внешними данными.
* Физические лица, признанные иностранными агентами.
(начало: часть 1)
3. Вера в могущество науки преувеличена. «Хочется просто поставить точку в этом странном разгоне <…>, — говорит Татьяна Фельгенгауэр*, — хочется как-то раз и навсегда сказать: „Ребят, вот есть авторитетный научный разбор, закончили“». Мне бы тоже хотелось верить в то, что стилометрия может предложить авторитетный научный разбор, но увы: объективные успехи стилометрии сильно преувеличены. В статьях о стилометрии обычно рассматриваются искусственные случаи, в которых ответ известен заранее: примерно как рассказывает Даниил Скоринкин в своём интервью, возьмём три романа Толстого, три романа Достоевского, а ещё про один роман, про который мы знаем, кто его написал, пусть машина определит. Машина и определяет, но нового знания мы не получаем.
Когда речь заходит о новом знании, обычно вспоминают одни и те же истории. Так, никакой рассказ о стилометрии не обходится без Federalist Papers конца XVIII века. Это 77 статей, авторство которых принадлежит трём американским отцам-основателям, но про 12 текстов неизвестно в точности, кто их написал. В 1963 году Фредерик Мостеллер и Дэвид Уоллес посчитали частоты слов в этих статьях и заявили, что автором спорных текстов был Джеймс Мэдисон (кстати, возращаясь к пункту 2: Мостеллер и Уоллес как раз формулировали свои результаты в терминах вероятностей, в отличие от более новых стилометристов). Этот результат пользуется большим уважением, но так никогда и не был подтверждён извне — а вообще-то очень хотелось бы, чтобы, например, нашлись черновики Мэдисона и стало понятно, что метод правда работает. А самый известный и чуть ли не единственный случай с внешним подтверждением стилометрии — это Роберт Гэлбрейт, в котором Патрик Юола в 2013 году сумел распознать Джоан Роулинг.
4. Реальность сложнее стилометрии. Стилометрическое исследование обычно исходит из того, что текст написал какой-то автор. В случае Роберта Гэлбрейта это так и было — да, роман «Зов кукушки» взяла и написала Роулинг. Но с текстами Навального ситуация может быть более сложной: возможно, часть текстов из тюрьмы написана им, а часть — не им; возможно, что публикаторы вносят в них сильную правку; возможны и разные другие сценарии. Это вполне обычная практика в политической жизни: «Навальный это политик и институт. понятно что у него есть команда и она в том числе делает соцсети. что такого-то», — пишет Даниил Скоринкин. Это игра без правил, в которой стилометрия бессильна.
Но, конечно, критика и сомнения не делают статью Боровского менее интересной и важной. Может быть, главная ценность исследования даже не в ответе, а в том, что автор попробовал применить стилометрию к этому вопросу. А ещё есть надежда, что когда-нибудь мы узнаем подлинную историю текстов Навального из тюрьмы — и вдруг работа Боровского или кого-то, кто решить воспроизвести её, станет ещё одним классическим примером стилометрии, подтверждённой внешними данными.
* Физические лица, признанные иностранными агентами.
Неожиданные значения совершенного и несовершенного вида: фраза «так нельзя сказать» — про грамматику, а «так нельзя говорить» — про этику.
(Как обычно, лучший источник знаний о русском глагольном виде — мелкие огрехи иностранцев, хорошо говорящих по-русски.)
(Как обычно, лучший источник знаний о русском глагольном виде — мелкие огрехи иностранцев, хорошо говорящих по-русски.)