О словах и не только
4.06K subscribers
76 photos
1 video
2 files
88 links
Александр Пиперски: лингвистические заметки

@apiperski
加入频道
ТОНКОСТИ ОБРАЩЕНИЯ

«Никогда не начинайте писем „уважаемый такой-то“, только „многоуважаемый“. Это
дворнику я могу сказать: уважаемый».
(М. Л. Гаспаров, «Соболевский»)

Когда я поступил в магистратуру, едва ли не первое, с чего начала знакомство наша бременская научная руководительница — это этикет электронных писем: пишите мне Sehr geehrte Frau Lienert ‘Глубокоуважаемая госпожа Линерт’, а я в ответ буду писать Lieber Herr Piperski ‘Дорогой господин Пиперски’ — без всяких там австрийских церемоний типа Sehr geehrte Frau Professor Doktor Lienert, но и не как некоторые наглецы пишут Hallo Lienert.

Несколько лет спустя я оказался в компании германистов из Гамбурга, и речь зашла об обращениях. Один профессор, средних лет и компанейский, стал жаловаться: ну вот почему я пишу студентам Lieber Herr X, а они мне в ответ всё равно Sehr geehrter да Sehr geehrter, что за чинопочитание такое. На это другой профессор, помладше и более строгого вида, сказал: «А я всегда пишу студентам Lieber, но если они начинают писать Lieber в ответ, то я немедленно перехожу на Sehr geehrter».
ПРЯМО СЕЙЧАС

БЛАГОТВОРИТЕЛЬНЫЙ ЛИНГВИСТИЧЕСКИЙ МАРАФОН

Всю первую половину лета каждый понедельник, начиная с 6 июня, известные российские лингвисты и популяризаторы науки – Александр Пиперски, Светлана Бурлак, Борис Иомдин, Антон Сомин, Андриан Влахов, Владислав Зубов и Анастасия Пучкова – будут читать лекции онлайн. Лекции благотворительные, за пожертвования. Расписание и аннотации лекций смотрите по ссылке ниже.

На что мы собираем? В 2022 году команда чудесных школьников из России едет на Международную олимпиаду по лингвистике на остров Мэн (коронная земля Великобритании). Поездка, к сожалению, получается не из дешёвых. Частично нам помогает государство, частично благотворители, однако часть средств нам ещё предстоит собрать.

Если вам понравится лекция, то любую сумму, которые вы посчитаете нужной, можно перевести руководителю команды Анастасии Пучковой на карту ВТБ 4893 4705 1775 6562; для переводов из-за пределов России напишите в личные сообщения Анастасии .

Марафон открывает Антон Сомин с лекцией «Что в имени тебе моём: имя и имянаречение в языках мира».

ССЫЛКА: https://docs.google.com/document/d/1gxOpg3SpcZhu2NdYwtg3JvRuQPeT0YGsPhjThN-fscE/edit
РОМБИК

Недавно мне довелось задавать школьникам задачу, где спрашивалось что-то вроде «что обозначено на карте ромбиком, а что — квадратиком?». Предвидя усмешки школьников-математиков, мы в явном виде нарисовали в вопросе значки ◇ и □, но я, конечно, не мог не заинтересоваться, как с этой проблемой справляются словари. Плохо справляются: нигде не сказано, что квадрат, одна из диагоналей которого вертикальна, — это ромбик. Вообще, похоже, в бытовом русском языке есть два разных слова с тем же корнем, что ромб в геометрическом смысле, то есть четырёхугольник с четырьмя равными сторонами:
• редко употребляемое в быту слово ромб — только ромб с неравными углами;
ромбик — ромб с неравными углами или квадрат с вертикальной диагональю.

А в английском языке это множество фигур устроено по-другому:
• в геометрии: rhombus;
lozenge — ромб с неравными углами;
diamond — ромб, у которого есть вертикальная диагональ и она не короче горизонтальной.

Хотя, конечно, наверняка тут всё очень индивидуально в обоих языках.
КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА НА СИРИУС.КУРСАХ

После предыдущего поста я получил несколько вопросов о том, что почитать о компьютерной лингвистике подробнее — и понял, что я же могу предложить не просто почитать, а посмотреть целый онлайн-курс!

Это курс «Компьютерная лингвистика» для школьников и всех желающих на платформе Сириус.Курсы: https://edu.sirius.online/

Курс подготовили Даниил Скоринкин (главный редактор «Системного Блока») и я, а также Илья Погодаев и Дарья Балуева; продюсер и менеджер курса — Анна Доледёнок.

Не стану скрывать, что мы пока что не научились рассказывать школьникам про искусственные нейронные сети (кажется, этого никто пока не умеет: ни информатики, ни биологи, а математики даже и не пытаются), но про всё остальное расскажем.

Запись открыта до 31 июля. Добро пожаловать!
СОЛ И ФАСОЛ

Есть такой старый анекдот про урок русского языка в грузинской школе. Учитель говорит: «Дети, слова сол и фасол пишутся с мягким знаком, а тарелька и вилька — без мягкого знака. Запомните, дети, потому что понять это невозможно».

У этого анекдота простая фонологическая интерпретация. В русском литературном языке /л/ и /л’/ — разные фонемы: они могут различать слова, как, например, в парах далдаль, толкатолько. А для учителя звуки [л] и [л’] — аллофоны, то есть варианты одной фонемы; слова с их помощью различаться не могут, а выбор между [л] и [л’] предсказывается окружающими звуками. И в таком случае действительно непонятно, зачем различать их на письме: если бы нас заставляли, например, писать стена, но маӈжета, потому что там разные н-образные звуки, мы бы тоже мучились.

Осталось решить маленькую лингвистическую задачу: чем окружение для Л в словах соЛ, фасоЛ отличается от окружения для Л в словах тареЛка, виЛка. Самое фонетически естественное (хотя не единственно возможное) решение выглядит так: [л] после гласных заднего ряда ([о], [у]), [л’] после гласных переднего ряда ([э], [и]). Есть версия анекдота, в которой к сол и фасол добавляется ещё вермишел; там приходится говорить про позицию конца слова и позицию перед согласным, но это чуть менее естественно.

Возникает только один вопрос: а действительно ли так устроен грузинский акцент? К сожалению, хороших обобщающих работ про фонетику русского языка в разных странах не существует, а в описаниях грузинской фонетики я такого различия [л] и [л’] с ходу не нашёл. Зато это правило, когда твёрдость / мягкость согласного определяется предшествующим гласным, очень похоже на что-то тюркское. Так что думаю, что анекдот про сол и фасол на самом деле отражает азербайджанский акцент, а в цикл про грузинского учителя он попал просто по географической близости.
Сегодня в 19:00 — лекция про малые языки. Я не согласен примерно ни с одним словом в аннотации, но тем интереснее! Ссылка — в файле.

Андриан Влахов

Что такое малые языки, как их изучать и почему это нужно делать прямо сейчас?

В мире есть множество языков, число носителей которых не превышает нескольких сотен или даже десятков человек. Такие языки мы обычно называем малыми, или миноритарными — и многие из этих языков по разным причинам находятся на грани исчезновения. Учёные хорошо знают, что каждый язык — это уникальный лингвистический материал, а также хранилище культурного наследия народа, говорящего на нём, поэтому задача немедленного изучения и спасения малых языков для лингвистики первостепенна. Мы поговорим о том, как лингвисты (и представители родственных наук) изучают малые языки и их носителей, о том, что такое научные экспедиции в малые сообщества, и о том, почему важнее этой работы в нашей науке нет ничего.
В России в кого ни ткни, всех зовут Александр, а бывают же страны, где имена разные. Как бы это посчитать?

Возьмём большой набор данных для разных стран — имена футболистов с Transfermarkt. Очевидно, что это не про имена вообще, а про имена молодых мужчин, но пренебрежём этим перекосом ради удобства и сопоставимости и посчитаем индекс Симпсона: какова вероятность, что имена у двух случайно взятых игроков из одной страны совпадут. Чем она выше, тем меньше разнообразие? А если разделить 1 на индекс Симпсона, то получим условное количество имён для данной страны: если вероятность совпадения 0,01, то родители как бы выбирают из 100 равновероятных имён; а если 0,02, то как бы из 50 и т. п.

Выше всего разнообразие имён в Западной Европе и в Турции: там самое частотное имя не набирает и 3%. Северная Европа, Западная Африка и Южная Америка где-то посередине, а в Южной и Восточной Европе царит однообразие. Ясно, что где-то просто больше плавильный котёл национальностей, а где-то меньше, но такие сильные расхождения только этим не объяснить: значит, всё-таки есть культурные различия в практиках именования.

И, конечно же, интересно просто почитать тройки лидирующих имён (если 3-е место делят несколько имён, привожу их все): в 8 странах из 23 в топе есть Иван, а в 6 странах — Александр. Лидерство Патрика в Германии и Антони во Франции для меня было неожиданным. А вам что-нибудь бросается в глаза в этой таблице?
Замечательная новость вчерашнего дня: Международный математический союз присудил премию Лилавати в области популяризации математики Николаю Андрееву. Многие из вас наверняка знают сайт «Математические этюды» и книгу «Математическая составляющая», в которой есть две статьи про лингвистику: В. А. Успенского и автора этого канала. Конечно, «Математическая составляющая» — книга из числа тех, что лучше держать в руках, чем смотреть в интернете: она сделана с невероятной красотой и вкусом. Мои любимые главы — про конический фужер, картографические проекции и созвездия, а вам наверняка придётся по душе что-то своё. А ещё я очень люблю модели, которые делает Николай Андреев и его команда: они позволяют в прямом смысле этого слова пощупать математику — вот, например, головоломка про теорему Пифагора. На сайте фигурки расположены так, что я сейчас справился очень быстро, но когда это физическая головоломка, я почему-то каждый раз застреваю надолго.

Видео с церемонии вручения премии Лилавати доступно здесь, а можно и отдельно посмотреть ролик про Николая Андреева и философию его работы. Кстати, премию Лилавати спонсирует компания InfoSys, которая в 2016 году была основным спонсором и организатором XIV Международной олимпиады по лингвистике в Майсуре (Индия).
В январе этого года я ходил на женский волейбольный матч между московским «Динамо» и «Тюрк Хава Йоллары» из Стамбула. «Динамо» выиграло, а я, сидя на трибуне, задумался: что же, интересно, значит название их соперниц? Так и не посмотрел.

Кто бы мог подумать, что полгода спустя у меня такого вопроса уже не будет и в понедельник, 11 июля, в 19:00 МСК я буду читать лекцию про турецкий язык. Как видите, я не скрываю, что взгляд на турецкий язык у меня м-м-м довольно свежий, но надеюсь, что это не страшно.

Вот некоторые темы, которые мы обсудим:
— что такое «Тюрк Хава Йоллары» (ну это вы уже поняли и мысленно перевели на английский) и почему на их эмблеме написано «спор кулюбю», а не «спорт клуб» (отчитаюсь за каждую букву!);
— правда ли турки думают по-другому, чем мы, потому что у них другой порядок слов (спойлер: весьма вероятно);
— как этот порядок слов связан с количеством падежей (спойлер: падежей будет только больше);
— что общего между турецким винительным падежом и русской одушевлённостью (спойлер: страшное слово DOM);
— можно ли ввести новый алфавит за два месяца и к чему это приводит (спойлер: в целом всё супер, хотя из моей фамилии получается ПЫПЕРСКЫ).

Zoom (идентификатор: 822 1634 9548, код: 836230)

Лекция проходит в рамках благотворительного марафона за пожертвования на участие команды России в Международной олимпиаде по лингвистике (подробнее). Карты для пожертвований: ВТБ 4893 4705 1775 6562 (Анастасия Пучкова); Сбер 2202 2002 8577 1372 (Антон Сомин).
Когда школьники начинают заниматься лингвистикой, они часто спрашивают: «А кем я буду работать?». Раньше я начинал ответ на этот вопрос с того, что в Макдональдсе никто из знакомых мне лингвистов не работает; сейчас это заявление стало ещё более неоспоримым, но вообще обычно после разговоров про то, что можно заниматься наукой и преподавать иностранные языки, я прихожу к компьютерной лингвистике, и это сразу всех радует: ясно же, что где компьютер, там деньги.

Да, перспектива заманчивая, но возникает вопрос: а насколько похожа современная компьютерная лингвистика на то, как её показывают школьникам? После того, как я сегодня прочитал лекцию про это на сборах Азиатско-Тихоокеанской лингвистической олимпиады, меня в чате спросили, не думаю ли, что я отвращаю слушателей от занятий лингвистикой. Надеюсь, что нет: проблематизировать надо, а предупреждён значит вооружён.

Для тех, кого интересует эта тема, прилагаю презентацию; а можно просто получить удовольствие от подборки задач по компьютерной лингвистике, которая эту презентацию сопровождает.
Как завоевать Константинополь, имея в своём распоряжении только гугл-транслейт
Кажется, раньше не упоминавшийся пример энантиосемии (это когда одно и то же слово может иметь прямо противоположные значения):

развязать узелразвязать войну

развязать X
— сделать так, чтобы X прекратил существование
развязать X — сделать так, чтобы X начал существование
КОСВЕННЫЕ ФЕМИНИТИВЫ

Очень интересный кейс к дискуссии о феминитивах. Я случайно наткнулся на старый сайт кафедры общего языкознания СПбГУ. То, что там написано, давно не актуально, но обратите внимание на строку «Зам. заведующей кафедрой». Лично я бы так не написал, хотя после «Заведующей кафедрой» это вполне логично. Получается, что выбор рода здесь выражает выбор между конкретно-референтным пониманием (заместитель вот именного данной конкретной заведующей) и генерическим (родовым: должность такая, а кого замещать — неважно).

С грамматикой заместителей вообще есть о чём подумать: вот МакГонагалл — Deputy Headmistress при Дамблдоре, но из наличия Deputy Headmistress не следует, что в школе есть Headmistress. Из наличия заместителя заведующей следует, что есть именно заведующая, а из наличия заместителя заведующего не следует ничего.
ОДИН ТАМ*

В современном русском языке есть новое неопределенное местоимение один там:

(1) приехать домой зайти на фикбук и увидеть уведомления об изменених в тексте одного там фанфика и вот я уже питаю скорее всего ложные надежды на то что он однажды будет опубликован..

(2) щас пересматриваю свой урок для подростков, который вела в июне, чтоб вспомнить одну там тему

Основное значение один там — это слабая определенность (конкретный объект, известный говорящему, но неизвестный слушающему). Это же и одно из значений слова один, но, видимо, один слишком многозначно, поэтому его понадобилось усилить словом там.

Ещё более явный аналог один там — местоимение кое-какой. Правда, по данным Национального корпуса русского языка его частотность за последние 50 лет упала почти до нуля. Это, если честно, меня не удивляет, а больше удивляет, что в языках мира вообще встречаются местоимения слабой определенности: говорить «я знаю какой, но не скажу» — это же довольно по-хамски. Эта хамскость в разговорном русском языке иногда снимается местоимениями неизвестности на -то:

(3а) Я вчера зашёл к букинисту, купил кое-какую книгу.
(3б) Я вчера зашёл к букинисту, купил какую-то книгу.

Говорящий, конечно, знает, какую книгу он купил, но в (3б) он помогает слушающему сохранить лицо, делая вид, что всё не так однозначно и точной информации нет ни у кого. У меня есть (не знаю, насколько достоверное) ощущение, что слово какой-то в таких смягчающих контекстах обязательно редуцируется: надо говорить Я купил ку-т книгу, а не какую-то книгу, при том что во фразе с подлежащим в 3-м лице возможна разная полнота произнесения: Он купил какую-то/ку-т книгу. Это же — одна из функций неопределенного артикля в западноевропейских языках.

Но бывает развитие значения, которое делает местоимение слабой определенности нехамским: «я знаю какой, но не скажу не потому, что вам не надо знать, а потому что вы и так знаете»; говоря языком Роулинг, «-Who-Should-Not-Be-Named»:

(4) (над фотографией в довольно откровенном купальнике) Раскрываем одну там тему

(5) Ждём одно там обращение.

Здесь, наоборот, это местоимение оказывается по функции близким к определенному артиклю.

Вообще, очень интересно следить за возникновением новых местоименных слов: один там, чтобы что?, где территориально?. Прямо как на марафоне, волнуешься, кто из них дойдет до финиша и грамматикализуется как следует, а кто блеснёт на старте, но затем сойдёт с дистанции.

* Пост написан на основе наблюдения, сделанного Александрой Борисенко.
КОРПУСНАЯ ЛИНГВИСТИКА И РЕАЛЬНЫЙ МИР

Для некоторых расчётов я тут скачал 200 тысяч русскоязычных твитов за сегодня и 200 тысяч твитов за вчера. Во вчерашних твитах заметно чаще, чем сегодня, встречаются слова спать, гл, мэнд, спокойной, ночи, снов, лавров, доброй, сладких, аватаршоу. В сегодняшних твитах заметно чаще, чем вчера, встречаются слова байх, даа, байгаа, гэдэг, дээ, байна, гэсэн, чинь, гэж и некоторые другие.

Ну, естественно, я полез разбираться. Оказалось, что вчерашние твиты скачивались начиная с тех, что написаны в 23:59 UTC, и дошли назад примерно до 18:00 UTC, то есть все эти спокойной и сладких — это то, что люди писали с 21:00 МСК до 03:00 МСК. А сегодняшние тексты — это, соответственно, с 10:00 до 14:00 UTC, то есть с 13:00 до 17:00 МСК, а ночные ещё не подоспели. Сегодняшняя популярность монгольских слов имеет ту же природу: твиттер, похоже, вообще не знает про монгольский язык и записывает его в русский, но вчерашний промежуток времени захватил ночь в Улан-Баторе (с 02:00 до 08:00), когда монголы спали, а сегодня у них было самое время потвитить — с 18:00 до 22:00, поэтому монгольских постов гораздо больше.

Почему-то одно из самых приятных чувств, которые я получаю от занятий корпусной лингвистикой, — это когда удаётся найти какой-нибудь такой дурацкий перекос.

P.S. Раньше ещё можно было переводить в гугл-транслейте длинные сочетания гласных с монгольского и получать всякие странные переводы. Сейчас это так не работает, но зато я перевёл те слова, которые перечислил выше, и получил:

быть, быть, быть, быть, быть, быть, быть, быть

Не вникаю в вопрос о том, насколько это осмысленные переводы, но тоже весьма поэтично.
СИММЕТРИЯ

Я начал утро с чтения споров о том, надо ли говорить «кыргызский» или «киргизский». Набор аргументов вполне обычный для дискуссии «вы называете нас не так, как мы! — всегда называли и будем называть!»: колониализм, а я ничего такого не имею в виду, уважайте другую страну, а почему мне кто-то должен указывать и т. д. Но это один из тех редких случаев, когда есть собственно лингвистическое соображение: в русском языке не бывает сочетаний «кы» и «гы». Окончательным этот аргумент, естественно, не является; но аналогичный довод возникает и в спорах про Türkiye, потому что буквы ü нет в английском алфавите, а вот, например, отказываться писать два «н» в слове «Таллинн» на таком основании сложнее.

Но в данном случае интереснее всего симметрия, с которой два языка не могут назвать друг друга:
— по-русски нет сочетаний «кы» и «гы»;
— по-к[ыи]рг[ыи]зски слова не могут начинаться на «р», поэтому Россия будет «Орусия», а русский язык — «орусча». (В словаре есть две страницы заимствований типа «романтизм» и «рыцарь», но это всё не то, конечно.)

Вообще, иногда полезно представлять себе альтернативную историю, в которой русские люди возмущаются гласным «о» в слове «орусча» или гласным «y» в шведском слове «Ryssland»: сразу понимаешь, почему все эти споры абсурдны с точки зрения фонетики и грамматики, но важны с точки зрения социолингвистики.
ЗАЯВЛЕНИЕ

По-турецки «обращаться с заявлением» — başvurmak, «заявление» — başvuru. Эти слова образованы от baş ‘голова’ и vurmak ‘бить’, то есть это буквально «бить челом» и «челобитная». Жаль, что такие слова — лёгкий хлеб для составителей этимологических словарей: написал себе «от чело + бить, первое упоминание тогда-то», а культурную историю, кто у кого калькировал, когда и почему, можно и не прослеживать; а наверняка же там много интересного.

Если посмотреть тюркские языки России, то по-башкирски и по-татарски, где я бы ожидал обнаружить что-то похожее, нашлось только арабское заимствование ғариза / гариза. По-чувашски — заявлени; красивее всего, как обычно, осваиваются русские заимствования по-якутски: сайабылыанньа: [з] и [в] заменяются на [с] и [б], на месте ударного гласного — дифтонг, а все гласные, в том числе и ударный, под влиянием первого слога за- становятся задними.
Лингвистическая задачка
"Отец наорал на сына, потому что он был пьян"
-- кто из двоих был пьян -- отец или сын?
(Иван Сильвестров)

Предположим, что две ситуации (пьяный — отец, пьяный — сын) равновероятны. Тогда можно сказать, что наше предложение может обозначать и одно, и другое с вероятностью 50%: ведь «он» может отсылать как к отцу, так и к сыну.

Но задумаемся вот ещё о чём: а как ещё можно было бы описать эти ситуации? Если пьяный — сын, можно было бы сказать «тот», а не «он»; кроме того, можно было бы сказать «за то, что» вместо «потому что». Если предполагать, что все эти варианты равновероятны, окажется, что ситуацию «пьяный — сын» можно описать четырьмя равновероятными способами, а ситуацию «пьяный — отец» только одним. В итоге получается распределение как на картинке.

А теперь вернёмся к исходному вопросу. Мы услышали фразу «Отец наорал на сына, потому что он был пьян», то есть попали в зелёную область. Обратите внимание, что 80% зелёной области приходится на ситуацию «пьяный — отец», а не на ситуацию «пьяный — сын». Это значит, что первая интерпретация имеет вероятность 80%, а вторая — 20%.

Естественно, здесь очень много упрощающих предположений и не учтено много вариантов описания этих двух ситуаций. Но этот нехитрый пример позволяет понять, что знание языка — это во многом умение достраивать ненаблюдаемое и оперировать условными вероятностями. Для иностранца, который начал учить русский язык, ответ будет «50 : 50»; а вот носитель языка бессознательно проделывает все эти рассуждения или их часть — и в итоге у него получается ответ «80 : 20», а уровень понимания оказывается выше.