О словах и не только
4.06K subscribers
76 photos
1 video
2 files
88 links
Александр Пиперски: лингвистические заметки

@apiperski
加入频道
Готовлюсь читать лекцию про эволюцию языка, ищу в интернете какие-нибудь свежие цитаты про то, что а-а-а русский язык гибнет. По запросу в гугле "молодёжь портит русский язык" три верхние цитаты — это «Александр Пиперски рассказал о том, что происходит с русским языком и почему молодежи не стоит бояться испортить великий и могучий», «Портит ли молодежь русский язык? И как меняются языковые привычки? Об изменениях в речи рассказал Игорь Игоревич Исаев» и «Ирина Левонтина считает, что это совершенно нормальное и естественное явление». В общем, ничего не знаю про русский язык, но интернет эти ваши лингвисты испортили до чрезвычайности.
Заимствования из английского языка чаще всего приходят к нам через письмо, но при этом мы стремимся отражать произношение: например, мы пишем копирайтинг, а не копивритинг. Точность этого отражения может быть разной: например, в слове копирайтинг мы заменяем английские [r] и [ŋ] на [р] и [нг] (а с оглушением в именительном падеже даже получается [нк]) — но всё-таки мы стараемся.

Чтобы передавать произношение, полезно знать, как слова произносятся. Но иногда при заимствовании мы ориентируемся на базовые правила чтения, не зная, что они нарушаются в отдельных словах:

– правило «читай ea как [iː ]» — так из sweater [swɛtə] получается свитер;
– правило «читай ch как [tʃ]» — так из Chicago [ʃɪkɑː.ɡəʊ] получается Чикаго.

Одна из самых частых точек расхождения английского происхождения с русским заимствованием — это конечные сочетания «ударный гласный + se».

Русский язык обычно заимствует их с -з: релиз, лендлиз, абъюз. Но английское произношение в этом месте совершенно непредсказуемо: некоторые такие слова имеют [z], а некоторые — [s]. В частности, с [s] произносятся release, Lend-Lease и существительное abuse. А, например, происходящие из похожих греческих источников слова phrase и base звучат по-разному: с [z] и [s] соответственно. Как ни удивительно, противопоставление [z] и [s] довольно стабильно и мало варьирует в разных вариантах английского языка — разве что в британском английском [z] чуть больше.

Иногда в русском языке появляются дублеты: Кофе Хауз, но доктор Хаус из английского [haʊs]. Бывают такие пары и в английском: чаще всего существительное с глухим, а глагол — со звонким, например use и abuse. Но это не универсальное правило: release, например, звучит с [s] вне зависимости от части речи.

Знание о том, что -se после гласного читается как [z], полезно на начальном этапе изучения английского, потому что таких слов больше, и среди них есть высокочастотные: these, because, those, please. Но на более продвинутом этапе изучения оказывается, что это просто свойство каждого отдельного слова.

Вот списки слов на «ударный гласный + se» из числа 20 000 самых частотных английских слов с указанием на произношение последнего звука. Наверняка вы узнаете из них сколько-то интересных слов на [s] или с вариантами (я, составляя эти списки, узнал довольно много).

[z]: these, because, those, please, cause, lose, whose, choose — chose, disease, otherwise, rose, rise — rose, raise, surprise, exercise, phase, cheese, suppose, noise, nose, wise, refuse, enterprise, ease, praise, phrase, cruise, pose, advise, expertise, likewise, Louise, pause, clause, propose, expose, oppose, arise — arose, impose, disclose, applause, hose, disguise, prose, accuse, confuse, demise, comprise, fuse, muse, tease, dispose, despise, revise, guise, compose.
+ имена собственные на -ese (Chinese, Japanese, Portuguese и т. д.)

[s]: house (+ lighthouse, farmhouse, …), case (+ suitcase, staircase, …), release, increase, base (+ database), loose, chase, mouse, dose, decrease, lease, precise, cease, spouse, goose — geese, grease, obese, moose, overdose, Reese, concise, crease

[z] / [s]: use ([z] глаг. / [s] сущ.), close ([z] ‘закрывать, закрытие’ / [s] ‘близкий, тупик’), abuse ([z] глаг. / [s] сущ.), excuse ([z] глаг. / [s] сущ.), erase ([z] UK / [s] US), Syracuse ([z] UK / [s] US), Denise, misuse ([z] глаг. / [s] сущ.), vase ([z] UK / [s] US), diagnose ([z] UK / [s] US), reuse ([z] глаг. / [s] сущ.), blouse ([z] UK / [s] US)

К числу слов с [s], наверное, на всякий случай стоит добавить слова с безударным гласным перед -se:

purpose, promise, purchase, paradise, premise, practise, treatise.

Естественно, некоторая вариативность возможна и в словах из этих списков, а некоторые пометы могут быть оспорены, но тем не менее. Самым удивительным для меня стал комментарий в Wiktionary про vase: There is some tendency in American English to use the pronunciation /vɑz/ for more expensive and/or elegant items, and /veɪs/ for more everyday ones.

P.S. Повод для этого поста — разъяснение Полины Офимкиной про мягкий знак в слове абьюз
Благодаря OpenAI GPT-3 + DALL·E-2 даже я могу изготовить иллюстрированный сборник детских стихотворений по-английски! Или это OpenAI GPT-3 + DALL·E-2 могут благодаря мне?..
Родительный падеж от слова "кринж": нет (кого? чего?) …
Anonymous Poll
61%
кри́нжа
39%
кринжа́
Попробуем оживить этот канал! Торжественно клянусь, что он не превратится в хроники ChatGPT, (но будет много на эту тему, да).

Сегодня — подкаст «Книжный чел» с Гришей Мастридером:
https://www.youtube.com/watch?v=bu1-omo296s

Первый раз мы с ним очень интересно поговорили в 2019 году, сейчас настало время повторить (но не повториться!). Заимствования, ударение в слове «кринж», изменения в языке, ну и ChatGPT, конечно.
БЕЗУМНЫЙ ЗООПАРК

Что общего между голубем и телёнком? Общее между ними — это дельфин.

Пророк Иона, по-древнееврейски yōwnāh, провёл трое суток в желудке большой рыбы, dāḡ gāḏōwl. Мы привыкли считать, что это формально говоря не рыба, а кит, но про её точную видовую принадлежность учёные разных специальностей спорят уже много веков: может, какой-то кит, может, белая акула (как из «Челюстей»), а может, это вообще выдумка. Но по-турецки именем Ионы названо то крупное животное, которое по-настоящему часто встречается в Средиземном море, — дельфин: yunus balığı, буквально ‘Ионина рыба’, а обычно просто yunus, буквально ‘Иона’. Всё бы хорошо, но имя пророка yōwnāh по-древнееврейски значит ‘голубь’.

Древнегреческий дельфин — δελφίς — содержит индоевропейский корень *gʷelbʰ-. Однокоренное ему русское слово — это жёлоб, а δελφίς — это буквально ‘желобной’: он живородящий, то есть рождает своих детёнышей из жёлоба. А в германских языках от того же корня происходит название детёныша — англ. calf, нем. Kalb ‘телёнок’
Часто говорят, что в русском языке сложно обратиться к незнакомому человеку. Валерий Ефремов в 2009 году писал, что происходит «экспансия просторечных форм обращения к незнакомым людям типа мужчина, женщина и — с некоторыми оговорками — молодой человек. <…> К сожалению, современный речевой этикет, в отличие от достаточно жестко структурированного дореволюционного, не имеет полноценного и удобного для любой ситуации оклика незнакомого человека».

В последней фразе, мне кажется, очень удачно употреблено слово оклик: полезно отличать выделяющее обращение (оклик), когда надо привлечь внимание человека, от поддерживающего обращения, когда ты уже разговариваешь с человеком и при этом как-то его называешь. Кажется, что по-русски в последние годы в ситуации оклика незнакомого человека мужчина / женщина и молодой человек / девушка уверенно закрепились (во всяком случае, я в них ничего дурного и ненейтрального не вижу), а вот стандартных поддерживающих обращений к незнакомым не существует: просто разговариваешь с ними чаще всего на вы, реже на ты, говоришь спасибо и пожалуйста без обращения, и всё. Обращение брат очень социально специфично, а слова типа командир я даже не уверен, что слышал вживую.

По-немецки, кажется, нет ни оклика, ни поддерживающего обращения. Функцию оклика выступает Hallo! или Entschuldigung! ‘извините!’.

По-турецки оклики и поддерживающие обращения в целом совпадают: в обеих функциях используются термины родства — abi ‘старший брат’ для мужчины лет до 60, amca ‘·дядя по отцу’ или baba ‘отец’ для мужчины постарше; abla ‘старшая сестра’ для женщины лет до 60, teyze ‘тётя по матери’ для женщины постарше.

А по-английски плохо с окликом, зато удивительное разнообразие поддерживающих обращений: за 12 часов, что я сегодня успел провести в Англии, меня назвали pal, mate, sir и buddy (в не очень длинных репликах типа Sorry, pal и Cheers, buddy). А в прошлом году, когда мы ездили на остров Мэн, коллеги женского пола с удивлением отмечали, что их называют love.

Вот такая маленькая не очень репрезентативная типология.
А где же феминитив?!
СТИЛОМЕТРИЯ И ЖИЗНЬ (часть 1)

На сайте Kyiv Post 16 августа была опубликована статья Алексея Боровского (Олексій Боровський) «Is Jailed Alexei Navalny Really Writing All of His Public Messages?», в которой компьютерными методами анализируются посты Алексея Навального. Исследователь приходит к выводу, что тюремные посты Навального больше похожи на тексты, написанные Георгием Албуровым*, чем на тексты самого Навального, которые тот писал на свободе. Другие кандидаты на роль автора, которых рассматривает Боровский, — это Леонид Волков*, Мария Певчих*, Любовь Соболь* и Иван Жданов*. Более подробная версия должна быть опубликована в августе в украинском журнале, название которого пока не сообщается.

Александр Плющев* и Татьяна Фельгенгауэр* для своего Breakfast Show! взяли обстоятельные комментарии об этом исследовании у Георгия Албурова* и компьютерного лингвиста Даниила Скоринкина. Албуров* отрицает своё авторство, а Скоринкин задаёт несколько важных вопросов к методологии и изложению результатов и анонсирует, что в ближайшие дни Системный Блокъ попробует воспроизвести исследование. Вот вкратце ключевые сложности, которые видит Даниил Скоринкин:

— неизвестно, на каком в точности наборе текстов проводилось исследование;
— методы определения авторства хорошо работают на длинных текстах, но нет уверенности, что собранных Боровским текстов достаточно для надёжных выводов;
— есть погрешности в опубликованной таблице с расстояниями между авторами.

Подробный критический разбор с мини-репликацией почти сразу же сделала Александра Ершова. Системный Блокъ собирает корпус текстов Навального и потенциальных кандидатов на авторство его текстов (там есть и авторы, которых Боровский не рассматривал: Юлия Навальная и Руслан Шаведдинов*). Я с нетерпением жду результатов работы коллег.

А пока что позволю себе отметить четыре проблемных пункта, которые лично мне кажутся важными. Они касаются не только постов Навального, но и вообще стилометрии и публичного восприятия исследований в области компьютерной лингвистики.

1. Магия цифр. «Key: Number > 0, it is the same text; Number < 1, the same author composed the texts; Number > 1.5, different authors composed the texts» — так написано под таблицей с числами в исходной статье. К сожалению, совершенно неясно, что значат эти числа: какая конкретно метрика используется (у классической дельты Берроуза есть десятки вариантов), частоты каких слов считаются и т. д. и т. п. (об этом же пишет и Александра Ершова) — но на широкую публику любые цифры производят сильное впечатление. Хочется надеяться, что в будущей журнальной публикации будут раскрыты все подробности.

2. Сходство или вероятность? Большинство современных стилометрических исследований не отвечает на вопрос, с какой вероятностью тексты были написаны одним автором. Обычно строится таблица с расстояниями, как в статье Алексея Боровского, а затем она преобразуется в дерево, на котором более похожие тексты располагаются ближе друг к другу — и чаще всего оказывается, что рядом на дереве висят тексты одного автора. Такое дерево можно увидеть, например, в статье Системного Блока про стилометрию; в докладе Штефани Эверт и соавторов на с. 3–4 есть целых три таких дерева, где авторство распределяется идеально. Но, как говорится в том же докладе сразу после деревьев, их статистическая значимость — это отдельный вопрос, которым исследователи редко задаются. В нашем случае ещё важнее то, что расстояния — это неинтерпретируемые числа, а деревья — их визуализации, но мы совершенно не понимаем, с какой вероятностью два текста, оказавшиеся рядом на дереве, действительно написаны одним автором: это 30%? 90%? 99,9999%?

(продолжение: часть 2)

* Физические лица, признанные иностранными агентами.