Системный Блокъ
10.8K subscribers
241 photos
2 videos
1 file
874 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
加入频道
​​Как видят мир беспилотники и почему «обучение с учителем» сломано
Девятый выпуск подкаста Неопознанный искусственный интеллект — с Борисом Янгелем
#podcasts

Борис Янгель работает в команде беспилотных автомобилей «Яндекса». Мы поговорили с ним о том, нужна ли полноценная интеллектуальность для создания беспилотника, в чем проблема обучения с учителем и почему сырая мощь вычислений постоянно оказывается «серебряной пулей», которая побеждает любые эвристики.

В этом выпуске

02:52 — Что такое искусственный интеллект сегодня
07:01 — Что происходит в мире компьютерного зрения и как может работать нейросеть DALL·E
13:10 — Почему грубая сила вычислений всегда побеждает
17:01 — Как обстоят дела с генерацией музыки и видео по описанию
18:38 — Computer vision, беспилотники и компьютерное понимание происходящего на дороге
21:09 — Критерии интеллектуальности машины
23:49 — Почему машинное обучение с учителем сломано
30:59 — Как решать задачи бенчмарка ARC от Франсуа Шолле
38:10 — Как обучаются беспилотники
43:19 — Нужен ли AGI для создания беспилотных автомобилей
47:04 — Стоит ли пытаться копировать природу при создании ИИ
49:28 — Как стыкуются Alpha Go и Дэниэль Канеман
54:54 — Актуальна ли проблема вагонетки для современных разработчиков беспилотных автомобилей
1:08:06 — Блиц: советы начинающим ML-специалистам, сериалы про ИИ, о чем говорить с компьютерным разумом
01:00:47 — Резюме выпуска: что мы поняли в беседе с Борисом Янгелем
01:12:19 — Финал выпуска

Хайлайты выпуска

1. Ограничения машинного обучения в беспилотных автомобилях

Наблюдая за тем, как кто-то ездит, машинное обучение не может выучить, что нельзя ехать в стену. Потому что почти никто никогда не ездит в стену. Модель никогда не будет уверена, пока ты не поедешь в стену. Или пока кто-нибудь не скажет: «Нет, в стену ездить нельзя». И роль такой фразы выполняет специальный язык, в котором можно описать такие ограничения: что бы ты ни делал, в стену ездить нельзя.

2. Сырая мощь вычислений остается «серебряной пулей» машинного обучения

И на GPT-3, и на DALL·E было потрачено огромное количество вычислений. Мы тратим больше вычислений — мы получаем лучший результат. Пока никаких нарушений этого принципа, кажется, не было видно.

Пару лет назад Ричард Саттон, один из отцов-основателей Reinforcement Learning, написал такое мини-эссе, которое называется «Горький урок» — The Bitter Lesson. Оно о том, что принцип «больше вычислений и универсальней модель» побеждает все в машинном обучении, и ничего с этим нельзя сделать.

3. Почему классическое машинное обучение с учителем сломано

Классические методы машинного обучения сильно опираются на корреляции и хуже умеют понимать причинно-следственные связи. Из-за этого мы можем случайно выучить некое совпадение признаков (например, употребление кофе и рак легких) и принять его за зависимость.

Неумение работать с причинно-следственными связями ограничивает то, насколько наши системы способны к обобщению. А еще это делает модели уязвимыми к adversarial атакам, когда небольшой шум в данных заставляет модель ошибаться в очевидном для человека случае.

Где нас слушать или читать

Слушайте выпуск на Яндекс. Музыке, Apple Podcasts, Google Podcasts или в подкастах ВК.

Расшифровка и дополнительные материалы — на странице подкаста на сайте «Системного Блока».
​​Привет с фронта: военные открытки
#postcards

80 лет назад, 22 июня 1941 года, началась Великая Отечественная война. В военное время было особенно важно сообщить вести о себе своим близким, друзьям, знакомым. Проект «Пишу тебе» отобрал фронтовые открытки, посвященные тем временам.

Эти открытки наполнены любовью, заботой и надеждой на встречу с родными. Солдатам было очень важно получать ответные письма на фронте от дорогих и любимых людей. Такие письма заряжают энергией и придают больше сил.

На открытках можно заметить штамп «Просмотрено Военной Цензурой». Каждая открытка проверялась на отсутствие в ней государственной тайны.

https://sysblok.ru/pishu-tebe/privet-s-fronta-voennye-otkrytki/
Прошло три года с момента появления «Системного Блока». За это время мы:
👥 объединили вокруг издания более 100 000 человек. Спасибо, что вы с нами!
✒️написали для вас около 900 научно-популярных текстов;
🏅стали финалистами премии «Просветитель» в категории Digital;
🎙записали подкаст «Неопознанный искусственный интеллект»;
✉️ запустили проект «Пишу тебе» по оцифровке открыток;
💻устроили пару хакатонов по цифровым гуманитарным исследованиям и дата-журналистике;
📝 провели несколько собственных масштабных исследований.

Дальше больше! Мы развиваемся и планируем новые форматы. Если вам интересен «Системный Блок» и вы бы хотели к нам присоединиться и помогать нам в реализации всех идей и задумок, то мы ждем вас! Заполняйте форму и присоединяйтесь к команде «Системного Блока»:

https://docs.google.com/forms/d/e/1FAIpQLSeKm2htPxsbw7bIqimiXARfi2wGonrKl9V4b1tDPwSQcI-MdQ/viewform
Transkribus: как компьютерное зрение помогает переводить тексты сирийских мистиков
#digitalheritage #knowhow

Transkribus — платформа для оцифровки и распознавания текста на основе технологии HTR (Handwritten Text Recognition), которая позволяет обучать специальные модули распознавания текста. Обученные модули способны распознавать рукописные, машинописные и печатные документы на самых разных языках.

Например, на классическом сирийском — главном языке восточного христианства. К сожалению, пласт текстов так и остался неизученным: сюда относится всемирная хроника Йоханнана бар Пенкайе. В издании 300 рукописных страниц — все нужно набрать вручную, а это долго и требует постоянной высокой концентрации внимания. Transkribus ускорил процесс.

Обучение нейросети

• сбор необходимого количества данных для модуля — для Transkribus это 80 страниц. Язык или тип письменности не важны.
• распознавание почерка — программу тренируют на собранных данных. Чем их больше, тем точнее будет работать модуль.
• сравнение транскрипций — программа сравнивает первоначально распозанный текст с правильной отредактированной версией.

Ошибки Transkribus

После тренировки модуля эффективность оценивается на тестовом образце. Она оценивается по проценту ошибочных символов. Модули, которые распознают тексты с ошибочностью менее 10%, считаются эффективными.

Три условия для хорошей работы модуля:
• хорошее качество транскрипции, которую вы производили, когда обучали модуль;
• аккуратность/неаккуратность почерка;
• хорошая сохранность рукописи (высокое разрешение и контрастность отсканированного изображения).

Сирийские средневековые рукописи писались профессиональными писцами, в них мало индивидуальных особенностей и не отличаются почерки. С таким материалом Transkribus справляется точнее и лучше.

Функции платформы

Разработчики платформы говорят, что существует 70 публичных модулей и 8 400 частных. Среди них есть и сирийские модули , разработанные Beth Mardutho — организацией, занимающейся изучением сирийского наследия. Для разных видов сирийского письма — серто, эстрангело, восточносирийское — сделаны отдельные модули.

С помощью платформы можно массово детализировать рукописи и создавать корпуса: функционирует поиск по ключевым словам или по регулярным фрагментам в уже распознанном тексте. Transkribus способен распознавать и оцифровывать тексты на языках, относящимся к историческим периодам, что делает нейросеть полезной для пользователей.

https://sysblok.ru/digital-heritage/transkribus-kak-kompjuternoe-zrenie-pomogaet-perevodit-teksty-sirijskih-mistikov/

Ксения Костомарова
«Системный Блокъ» запускает онлайн-мастерскую проекта «Пишу тебе» — цифрового корпуса почтовых открыток. В коллекции проекта интересные и редкие открытки, по которым можно изучать историю, культуру и коммуникации между людьми. Мы хотим разделить с вами те открытия, которые делает команда проекта «Пишу тебе».

На онлайн-мастерской мы будем изучать открытку как объект визуальной и текстовой культуры и погрузимся в особенности расшифровочного дела. Вы получите специальный навык и узнаете новые детали об эпохе и повседневной жизни, сможете провести параллели и сделать исследовательские выводы.

Темой первой онлайн-мастерской 25 июля станут дореволюционные открытки из нашей коллекции. Работать с такими открытками одновременно и сложно из-за дореформенной орфографии и увлекательно из-за их необычного содержания. Они не шаблоны, и послания на них носят скорее личный характер. Дореволюционные открытки могут содержать довольно длинные тексты, касающиеся самых разных проблем, с которыми могли встретиться современники наших прапрадедушек: сложности с учебой, разлады в семье, конфликты с начальством на работе. Есть и открытки, посланные с полей Первой Мировой войны, о которой мы сегодня не так часто вспоминаем.

Для участников мастерской нет ограничений по возрасту и специальному образованию, но потребуется установить Zoom.

Мы приглашаем вас присоединиться к исследованиям и сделать свои открытия.

Программа онлайн-мастерской:
1. Презентация проекта онлайн-мастерской и проекта «Пишу тебе»
2. Расшифровка двух редких открыток
3. Работа в исследовательской группе с модератором проекта
4. Обсуждение работы и подведение итогов

Для участия в онлайн-мастерской необходимо зарегистрироваться по ссылке:

https://sysblok.timepad.ru/event/1712725/
​​«Орнамика»: цифровой архив узоров и вдохновение для дизайнера
#art

Цифровой проект «Орнамика» — это открытый архив узоров России, который насчитывает 8000 оригинальных орнаментов и 200 техник декоративно-прикладного искусства.

Проект разрабатывался в течение двух лет. Целью было создать хранилище, которое «помогало бы быстро представить себе все разнообразие стилей декоративно-прикладного искусства России». Создательница библиотеки, Мария Лолейт, планирует расширить коллекцию до 50 тыс. узоров. Платформа состоит из двух разделов: архива оригиналов и лаборатории.

Хранилище узоров

Архив «Орнамики» покрывает 11 веков, 50 регионов, 20 типов и более 200 техник и стилей искусства. Для упрощения поиска в поиск встроены фильтры.
• география объекта — к примеру, название федерального округа.
• время создания орнамента — можно выбрать в диапазоне IX — начала XX веков или указать «неизвестный век».
• вид искусства — художественная резьба по камню, бисероплетение, ковроткачество и т.д.
• композиция — бесконечная или симметричная, в зависимости от расположения узора.
• изображение на орнаменте — животные, птицы, растения, люди, надпись, здание, оружие, музыкальный инструмент и т.д.
• тип объекта — в зависимости от поверхности нанесения узора: одежда, текстиль, украшения, инструменты труда, печи и т.д.

Быстрее всего найти нужный узор можно по индивидуальному номеру.

Лаборатория «Орнамики»

• реконструкции — детальные цифровые копии исторических узоров. Например, реконструкции узоров из книги С.Н.Писарева «Древнерусский орнамент» 1903 года.
• интерпретации — примеры развития мотивов оригинальных узоров, созданные для решения современных графических задач. Пример: проект художницы Яны Кузнецовой, совмещающий узоры пазырыкской культуры и древнейшие качественные орнаментальные мотивы, обнаруженные в Горном Алтае в VI — III вв. до н.э.
• аналитика — экспертные статьи по отдельным направлениям узорной графики. Последняя актуальная статья «Детство в узорах» реконструирует быт и традиции, связанные с воспитанием детей в XIX веке.

https://sysblok.ru/?p=12074

Дарья Сотникова
​​Как работает BERT
#knowhow #nlp

BERT или Bidirectional Encoder Representations from Transformers — это нейросетевая модель-трансформер от Google, на которой строится большинство инструментов автоматической обработки языка. Код модели выложен в открытый доступ. Саму нейросеть можно запустить как на локальном компьютере, так и на бесплатном серверном GPU на Google Colab.

Эмбеддинги и бенчмарки

Языковая модель работает с текстом, но для компьютера текст сам по себе ничего не значит. Чтобы закодировать текст в осмысленные числа, люди придумали векторные представления слов, которые основаны на контекстах употребления этих слов. Такие векторные представления называются эмбеддинги. Они кодируют семантические близости слов, причем с учетом контекста конкретного предложения.

Языковая модель принимает на вход эмбеддинги токенов и выдает результат в зависимости от задачи: стандартный набор задач, который выполняют на стандартном наборе данных, чтобы доказать, что нейросеть справляется с пониманием текста. Стандартные задачи называются в NLP бенчмарками («ориентир», «отметка» по-английски). BERT тестировали на наборах бенчмарков GLUE — «Оценка общего
понимания языка», SQuAD и SWAG.

Обучение нейросети

В зависимости от конечной цели используют либо машинное обучение с учителем (supervised learning), либо без него (unsupervised learning).

Для сложных нейросетей используют процессы «предобучения» и «дообучения». В первом методе нейросеть прогоняют на больших объемах текстов. Во втором – обнуляют финальный слой весов и тренируют модель на новом наборе данных.

Обучение BERT

Новшество BERTа — в способе предобучения. Ранние архитектуры, чтобы обучиться, предсказывали, какое слово вероятнее будет стоять следующим, учитывая слова до него. BERT же предобучается на «маскированной языковой модели»: нужно предсказать слово не в конце предложения, а посередине. Главная задача — угадать, какие слова пропущены (выдать числовой код) и сказать, подходит ли второе предложение к первому.

Для дообучения (файнтьюнинга) в BERT не нужно стирать «часть памяти» модели. Вместо этого «поверх» модели добавляют новый слой нейронов. Его матрицы весов заполнены случайными числами, которые настраивают так, чтобы на новой задаче ошибка была минимальной.

BERT используется в Google: поначалу эта модель работала только для английского языка, позже добавили в поиск и на других языках. Нейросеть можно использовать для модерации текстов, поиска ответов на юридические вопросы, оптимизации работы с SEO-сайтами. Кроме того, практически половина NLP использует BERT и BERT-подобные архитектуры.

https://sysblok.ru/knowhow/kak-ustroena-nejroset-bert-ot-google/

Камилла Кубелекова, Владимир Селеверстов
​​TikTok — самое популярное приложение в России и в мире. Бум ТикТока больше нельзя игнорировать. Поэтому «Системный Блокъ» запускает серию образовательных роликов о языках мира. Лингвист и популяризатор науки Александр Пиперски рассказывает о том, чем интересны разные языки, как эти языки связаны с русским (если связаны), какие в них есть любопытные звуки и слова.

Первый выпуск посвящен сербскому языку. Чем интересен сербский:

— Кириллица или latinica? Не важно! Сербы могут писать на своем языке и так, и так.
— В сербском есть жуткие сочетания согласных с р. «На врх брда врба мрда» — нормальная сербская фраза.
— В сербском много слов, похожих на русские, но некоторые сходства обманчивы: «неделя», «банка», «право» и «позориште» значат совсем не то, что вы подумали.

https://vm.tiktok.com/ZSJnUuHtB/
​​UniLM — языковая модель для тех, кому мало BERT
#nlp

Мы уже рассказывали о языковых моделях BERT и GPT-2. Теперь разбираемся, как работает еще одна нейросетевая языковая модель.

UniLM расшифровывается как Unified pre-training Language Model. По архитектуре это многослойный трансформер, предварительно обученный на больших объемах текста. В отличие от BERT, UniLM используют как для задач понимания естественного языка (NLU), так и для генерации задач для NLU — NLG (Natural Language Generation).

Обучение нейросети

Обычно для обучения нейросетей используются три типа задач языкового моделирования (LM, Language Model): однонаправленная LM, двунаправленная LM, sequence-to-sequence LM. В случае с UniLM происходит единый процесс обучения и используется одна языковая модель Transformeк с общими параметрами и архитектурой для различных видов моделирования. Сеть не нужно отдельно обучать каждой задаче и отдельно хранить результаты.

Представление текста в UniLM такое же, как в BERT: сначала текст токенизируется, для этого используется алгоритм WordPiece: текст делится на ограниченный набор «подслов», частей слов. Из входной последовательности токенов случайным образом выбираются некоторые токены и заменяются на специальный токен MASK. Далее нейросеть обучается предсказывать замененные токены — стандартный на сегодня способ тренировки языковых моделей.

Для различных задач языкового моделирования используются различные матрицы масок.
• однонаправленная LM — использование left-to-right, right-to-left задач языкового моделирования.
• двунаправленная LM — кодировка контекстной информации и генерация контекстных представлений текста.
• sequence-to-sequence LM — при генерации токена участвуют токены из первой последовательности (источника), а из второй (целевой) последовательности берутся только токены слева от целевого токена и сам целевой токен. В итоге, для токенов в целевой последовательности блокируются токены, расположенные справа от них.

Архитектура UniLM соответствует архитектуре BERT LARGE. Размер словаря — 28 996 токенов, максимальная длина входной последовательности — 512. Вероятность маскирования токена составляет 15%. Процедура обучения состоит из 770 000 шагов.

Результаты работы UniLM

Нейросетевая языковая модель использовалась для задач автоматического реферирования — генерации краткого резюме входного текста. В качестве входных данных использовался датасет CNN / Daily Mail и корпус Gigaword для дообучения модели.

Так же модель тестировали на задаче ответов на вопросы — QA (Question Answering). Задача состоит в том, чтобы ответить на вопрос с учетом отрывка текста. Есть два варианта задачи: с извлечением ответа из текста и с порождением ответа на основе текста. Эксперименты показали, что при генерации ответов UniLM по качеству превосходит результаты лучших на момент проведения экспериментов моделей: Seq2Seq и PGNet.

Применение модели

Архитектура UniLM подходит для решения задач языкового моделирования, однако для конкретной задачи по-прежнему требуется дообучение на специфических данных для конкретной задачи. Это ограничивает применение языковой модели в практических целях: к примеру, для исправления грамматики или генерации рецензии к короткому рассказу трудно собрать набор дообучающих данных.

Нередко случается, что большие предобученные модели не обобщаются для узкоспециализированных задач. Поэтому появляются модели, для обучения которых используют метод контекстного обучения.

https://sysblok.ru/nlp/unilm-jazykovaja-model-dlja-teh-komu-malo-bert/

Светлана Бесаева
Анализ тональности отзывов о запрещенных веществах
#nlp

Язык интернета имеет свои особенности, и его активно исследуют лингвисты. Однако мало известно о характеристиках русского языка, используемого для нелегальной деятельности в DarkNet'е. DarkNet — это та часть интернета, которая не индексируется поисковыми системами и требует специального софта для входа. Именно там происходит большая часть нелегальной онлайн-активности

Сбор материала

Цель нашего мини-исследования: выявить и описать специфические лексические средства, используемые в отзывах о запрещенных веществах. Для этого мы провели анализ тональности — это автоматическое определение отрицательности или положительности отзыва. С помощью анализа можно выявить эмоционально окрашенную лексику.

Для этого с одной из крупнейших площадок для продажи наркотических веществ в DarkNet'е были собраны тренировочная и тестовая выборки. В тренировочную выборку входят 1000 отзывов о пяти разных наркотических веществах; в тестовую — 200 отзывов. Положительные отзывы были размечены как 1, а отрицательные как -1.

Обучение модели

• приведение всех слов в начальную форму, удаление стоп-слов. Длина всех положительных отзывов составила 10403 слова, а отрицательных — 10624.
• превращение текстов в цифровые вектора с помощью TF-IDF и Count Vectorizer'а.
• разделение отзывов по лексическому составу. Для этого воспользуемся decision_function: функция сообщает, где в пространстве значений, по мнению модели, лежит тот или иной отзыв. Итог: большая часть положительных отзывов имеют схожую лексику — как и большинство отрицательных.
• определение характерных слов для положительных и отрицательных отзывов. Для этого использовали модели логистической регрессии (Logistic Regression) и метода опорных векторов (Support Vector Machines).

Характеристика отзывов

Самым решающим словом для определения отрицательности отзыва является «ненаход», а для положительности — «касание». «Ненаход» обозначает ситуацию, когда покупатель не обнаружил на месте приобретенный товар. Слово «клад» фигурирует в жалобах на неудачные места для тайников. Кроме того, в пределах двух слов от «клада» 35 раз встречается слово «ненаход».

«Касание» наоборот значит, что тайник было легко забрать. «Касание» может употребляться как в качестве самостоятельного слова, так и с предлогом в, а также с глаголами забрать, снять и поднять.

Слово «квест» обозначает сам процесс получения товара. В положительных отзывах «квест» обычно употребляют в контексте того, как легко было найти и забрать товар. Вообще легкость получения «клада» — ключевой фактор для тональности всего отзыва.

https://sysblok.ru/nlp/kladmen-mudak-analiz-tonalnosti-otzyvov-o-zapreshhennyh-veshhestvah/

P.S. От редакции: употреблять наркотики смертельно опасно, а хранить их и тем более торговать ими — еще и уголовно наказуемо. Наш текст посвящен сугубо научному исследованию лингвистических аспектов этой противозаконной деятельности. Редакция против наркотиков, поэтому мы не раскрываем название площадки и способы попасть туда.
📮 Сегодня 1 октября — Международный день открытки. В этот день в 1869 году австрийский экономист Эммануэль Херрман написал статью о том, что оформление письма и его упаковка в конверт — это слишком сложно для маленького сообщения.

Идея Херрмана вдохновила австрийскую почту ввести новый тип открытого письма. Так появилась почтовая открытка. С тех пор люди обмениваются открытками уже больше 150 лет, несмотря на появление радио, телеграфа, телефона, интернета и даже телеграма 💁‍♂️

Весь последний год «Системный Блокъ» делает проект по оцифровке старых почтовых открыток «Пишу тебе». Специально к Международному дню открытки мы сделали две вещи:

1. Подготовили для вас рассказ о самых старых открытках в нашей коллекции. Конечно, открыток 1869 года у нас пока нет, но есть те, которым больше 120 лет. И вы можете их почитать — мы всё расшифровали и оцифровали! Если хотите узнать, как отправители открыток начала XX века рассказывают о путешествиях, жалуются на денежные трудности или дают наставления, то вам сюда.

2. Мы запустили краудсорсинговый сбор открыток. Старые открытки — это ценные документы для истории повседневности, истории культуры и истории страны. И цифровое сохранение истории вашей семьи — очень важно и ценно для потомков! Сфотографируйте и загрузите 10 старых открыток сюда — а мы отправим вам новую крафтовую открытку от «Системного Блока», которую мы задизайнили специально для вас. Не забудьте оставить нам в форме заливки свой почтовый адрес! Ваш вклад в оцифровку нашей общей истории обязательно будет вознагражден!

P.S. Посмотреть всю коллекцию открыток проекта «Пишу тебе» можно на сайте проекта.
Оцифровка сфагновых болот 100-летней давности и новейшее башкирское нейроискусство: обзор блогов «Системного Блока»

«Системный Блокъ» запустил блоги. Теперь у нас регулярно делятся своим личным опытом ученые, преподаватели и эксперты-практики. Они рассказывают об использовании цифровых технологий в исследованиях и образовании, рассуждают о сопряжении культурного и цифрового. Вот какие посты уже опубликованы в наших блогах:

— Зачем генерировать башкирские стихи и картины башкирских художников? Как на это реагируют люди? Почему в нейронно-сгенерированном искусстве все хотят видеть «душу»? Об этом рассуждает в своем блоге цифровой филолог и создатель проекта «Нейробашкорт» Борис Орехов:

Уроки Нейробашкорта

— Как сделать историю Гражданской войны в России или атомной бомбардировки Японии живой для школьников? Учитель истории и обществознания Юлия Папанова проводит уроки с помощью корпуса дневников «Прожито» — и делится опытом в своем блоге. Почитайте, как оцифрованные дневниковые записи помогают не только ученым, но и школьным преподавателям:

Как провести урок истории на основе цифрового архива «Прожито»

— Как нанести на электронную карту атлас флоры Владимирской губернии, вышедший в 1902 году? Почти детективная и очень личная история о том, как современные биологи искали сфагновые болота и лесные урочища, по которым ходил их дореволюционный коллега Александр Флёров. Рассказывает один из авторов этого 15-летнего исследования, доктор биологических наук Алексей Серёгин:

Флёров goes digital

— Как могла бы выглядеть «игра в бисер» из знаменитого романа Германа Гессе? Борис Орехов создал целую python-библиотеку, при помощи которой каждый может насладиться игрой, соединившей шахматы и китайскую поэзию эпохи Тан:

Комбинаторика бисера

Новые посты наших блогеров будут регулярно появляться здесь, а также на главной странице сайта
Тупой пофигизм вместо преглупого индефферентизма: как изменился русский язык за 100 лет

Знаете ли вы, кто такие кокотки, мазурики и филистеры? А кого называли рамольным? Часто ли вам приходится пикироваться или охорашиваться? Все эти слова активно использовались 100 лет назад, но сегодня практически вышли из употребления. И это легко обнаружить статистически.

Чтобы найти слова, которые были популярны в прошлом, но вышли из употребления сегодня, надо сравнить два корпуса текстов — старых и новых. Желательно иметь тексты одного жанра и типа — нельзя же сравнивать законы с рецептами пирогов. В двух корпусах можно посчитать частотности слов и выделить те слова, которые в одном употребляются часто, а в другом редко или вообще не встречаются.

На днях вышло исследование, где ровно так и сделали. Язык прошлого представляли дневниковые записи проекта «Прожито», созданные с 1900 по 1940 годы. Язык настоящего — тексты блогеров «Дзена». Исследователи смотрели на то, какие слова резко потеряли в популярности у авторов, а какие эту популярность приобрели.

Сначала изучим потери. Вместе с исследованием была выложена таблица из 1000 слов, которые сегодня употребляются в 10 и более раз реже, чем в дневниках первых 4 десятилетий XX века. И надо сказать, что среди этой тысячи есть очень обидные утраты. Например, слово «мазурик». Так называли мошенников: «и к чему тут речь о мазуриках и жуликах?», вопрошал в одной из своих статей Салтыков-Щедрин. Или вот слово «дрянность» — им пользовались Добролюбов, Писарев, Достоевский. А теперь оно исчезло. И предсказать такие исчезновения обычно нельзя.

Разумеется, есть и приобретения. Скажем, слово «неадекватный». В краткой форме оно есть уже у Льва Толстого: «употребляемое мною слово неадекватно понято». Но и в XIX, и в XX веке слово использовалось только для несоответствия чему-то терминов, идей, вещей и прочих неодушевленных объектов. Называть неадекватными людей, да еще и без указания, чему именно эти люди неадекватны, начали только в XXI веке. 

Больше примеров ушедших, пришедших и изменившимся до неузнаваемости слов ищите на сайте «Системного Блока»:

https://sysblok.ru/news/tupoj-pofigizm-vmesto-preglupogo-indefferentizma-kak-izmenilsja-russkij-jazyk-za-100-let/
Отличите ли вы живого поэта от электронного?

Сегодня пятница, а значит, можно уже отложить работу и поразвлекаться. Например, поиграть в наш поэтический тест Тьюринга! Вот посмотрите:

спит годами боль из детства
лишь слова кружат и слышат


Кто это написал? Кожаный мешокживой человек — или бездушная машина? Идите по ссылке — и узнаете! Пока одни шутят, что нейросети «пишут лучше Гришковца», а другие занудно твердят, что «компьютер никогда не достигнет высот творчества, на которые способен человек», вы можете поэкспериментировать на себе. Пишите в комментах, сколько угадали:

https://sysblok.ru/test/nejroset-vs-stihi-ru-otlichite-li-vy-zhivogo-pojeta-ot-jelektronnogo/
​​Приложения, которые сделают из вас эксперта в области искусства — помогут блеснуть эрудицией или даже вовремя заметить украденный шедевр

1. Узнать всё о понравившейся картине или скульптуре

Наведите камеру на произведение искусства, и вы сразу узнаете его название, автора, период создания и несколько интересных фактов.

Приложение Smartify работает на оцифрованных версиях картин, и пока в его базе есть далеко не всё. Например, «Аленушку» Васнецова угадать не получится, потому что Третьяковская галерея не сотрудничает с разработчиками. Зато можно исследовать шедевры Эрмитажа, Петергофа и Пушкинского музея. Кстати, приложение хорошо справляется не только с фотографиями в музее, но ещё с открытками и экраном компьютера.

2. Увидеть своего двойника на картине

Сделайте селфи, и нейросеть Art Selfie от Google Arts & Culture сравнит ваши черты лица с изображениями людей на картинах. На выходе вы получите коллаж со всеми возможными совпадениями и степенью сходства в процентах. Портреты кликабельны, и можно больше узнать о заинтересовавшей картине.

Кстати, приложение улавливает родственные связи: недавно оно сравнило Кейт Стюарт из Сент-Луиса с её прабабушкой, изображённой на картине Джорджа Беллоуза «Эмма в фиолетовом платье».

3. Заняться розыском украденных произведений искусства

Приложение ID-Art от Интерпола открывает доступ к списку украденных картин и скульптур с иллюстрациями и подробными описаниями. Искать можно по фотографии и списку критериев или только по списку критериев — в их числе вид произведения искусства, техника, материал и другие.

Чтобы сообщить о том, где вы столкнулись с пропавшей ценностью, нужно нажать кнопку «Report to Interpol». С момента запуска в мае 2021 года приложение уже помогло найти две скульптуры и две картины, которые были украдены и выставлены на продажу.

Все приложения можно скачать в App Store и Google Play.

Автор: Анастасия Денгаза
Какими видели женщин писатели из школьной программы?

Создательницы проекта «Толстой сексист? А Пушкин?» проанализировали 19 текстов Льва Толстого, Александра Пушкина, Владимира Набокова, Михаила Булгакова и Федора Достоевского.

Оказалось, что:
• Женщины у русских классиков почти не участвуют в диалогах.
• Женские персонажи у Пушкина чаще мужских показывают слабость — «устают», «плачут», «бледнеют» и «исчезают».
• Для мужчин Пушкин выбирает прилагательные, которые описывают скорее их внешность, чем чувства. Самые эмоциональные прилагательные классик раздаёт женщинам — это «роковая», «глубокая», «прелестная» и «святая».
• Героини Достоевского более смешливы, чем герои: писатель часто использует глаголы «смеяться» и «засмеяться» в отношении своих героинь.
• В произведениях Толстого женщины более сентиментальны и податливы, а мужчины властны и описываются активными глаголами.

https://sysblok.ru/philology/tolstoj-i-pushkin-seksisty-korpusnoe-issledovanie-russkoj-klassiki/
Как телефонный ассистент Олег издевается над социологами, и чем цифровая модель художественного текста отличается от волшебной карты Гарри Поттера — обзор блогов «Системного Блока»

Эксперты «Системного Блока» продолжают постить в блоги. В этот раз наши авторы рассказали о культурных искажениях в больших данных, неоднозначности результатов исследований Digital Humanities и влиянии голосовых ассистентов на общественное мнение. Посмотрите:

— Как связана статистика попаданий зениток по бомбардировщикам во времена Второй Мировой и состав Национального корпуса русского языка? И почему дошедшие до нас в цифровой форме стихи — «это и есть вернувшийся бомбардировщик, выбравшийся из зенитного огня истории»? Об этом и о том, почему стандартные статистические критерии репрезентативности не решают проблем филолога, рассказывает специалист по культурной эволюции и количественному стиховедению Артем Шеля.

Сбитые самолеты, русские стихи и другие жестокие вещи

— Вносят ли Digital Humanities однозначность и доказательность в гуманитарные исследования? (спойлер: НЕТ). Почему лингвисты исследуют обширные языковые системы, а филологи стремятся изучать единичные объекты? Опасаются ли традиционные филологи — цифровых? Новый пост в блоге Бориса Орехова — с ответами на вопросы о цифровой филологии.

Digital Humanities: где сидит стрекоза?

— Определители спам-номеров и голосовые ассистенты-автоответчики помогают отбиться от спамеров и телефонных мошенников. Но страдают в этой войне и невинные жертвы — социологи, которым становится все труднее исследовать общественное мнение. Вместо респондентов им все чаще отвечают боты, разработчики которых порой специально глумятся над исследователями, либо не отвечает никто. О том, как переход с домашних телефонов на мобильные влияет на опросы общественного мнения, рассказывает социолог Константин Глазков, автор канала WrongTech.

Как технологии меняют общественное мнение
Сегодня проходит суд о ликвидации «Мемориала» — старейшей правозащитной организации России, главного хранителя памяти о репрессиях. Мы хотим напомнить о данных, которые все эти годы собирал «Мемориал» и которым угрожает его ликвидация.

Решением Минюста «Международный Мемориал» внесен в реестр НКО, выполняющих функции «иностранного агента»