Системный Блокъ
10.8K subscribers
241 photos
2 videos
1 file
874 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
加入频道
Цифровой культурный колониализм
Какие подвохи таит агрегатор Google Art Project

В феврале 2011 года Google запустил агрегатор изображений произведений искусства — Google Art Project (GA&C), чтобы сделать культуру доступнее и сохранить ее в цифровой форме. Но перекосы в коллекциях агрегатора могут привести к статистической предвзятости и политической субъективности, а ещё повлиять на подходы к машинному обучению.

Исследователи решили проверить теорию о цифровом культурном колониализма в GA&C на примерах России и Франции.

Оказалось, что музеи с оцифрованным контентом появились почти во всех регионах России, но в GA&C попали музеи только из столицы и центральной части страны. Произведения ХХ века образуют почти 60% российского контента, а на произведения до ХII века приходится меньше 1% изображений. Получается, что пользователи скорее увидят картины и фотографии ХХ века из центральной России, чем произведения искусства других жанров и времен из периферии.

Данные в GA&C оказались несбалансированы, хотя прошли тест на репрезентативность. По статистике, на музейные объекты из пяти стран (США, Нидерланды, Великобритания, Италия, Южная Корея) приходится 93,4% контента — но среди них можно найти объекты практически для любой страны. Даже если страна не представлена в агрегаторе, ее культура может присутствовать через объекты в музеях других стран.

https://sysblok.ru/arts/cifrovoj-kulturnyj-kolonializm-v-google-arts-culture/
Набоковский клип
Как искусственный интеллект создает иллюстрации к художественным текстам и меняет наше представление о литературе

Литература XX века показала, что не всегда важно, что именно случилось с персонажем. Само описание людей и ситуаций может быть таким, что забываешь про все остальное.

По мнению Бориса Орехова, Владимир Набоков — писатель, в творчестве которого форма важнее сюжета. Набоков строит свою прозу на извлечении скрытых связей языка — например, выражение «поразительный паразит» из «Лолиты» трудно перевести на другой язык, не потеряв игру слов.

🎨 Зато визуализировать лингвистические образы можно. Поэтому Борис вместе с Любовью Каракуц-Бородиной «скормили» набоковские образы нейросети CLIP от Open AI и выставили самые удачные работы в Музее Набокова в Санкт-Петербурге.

Нейроиллюстрациями можно вдохновиться на Большой Морской или заглянуть на виртуальную выставку.

https://sysblok.ru/blog/nabokovskij-klip/
Был ли геноцид: статистика гибели жителей Донбасса в 2014-2021 годах

«То, что происходит на Донбассе, — это и есть геноцид» — фраза, сказанная Владимиром Путиным 15 февраля, за 9 дней до начала боевых действий на Украине. Позже президент РФ вновь говорил о «геноциде» уже в начале марта. Тогда Путин сказал, что «западные партнёры на протяжении восьми лет закрывали глаза на геноцид, устроенный киевским режимом в отношении жителей республик Донбасса». Упомянутые президентом «восемь лет» — один из главных аргументов тех, кто поддерживает боевые действия.

Мы решили сопоставить эти заявления — с цифрами. Причем не с западными цифрами, не с цифрами ООН и тем более не со статистикой украинской стороны, к которой многие в России отнесутся с недоверием. А с цифрами, которые предоставляют сами власти Донбасса. Ведь у них меньше всего оснований скрывать жертвы — они и сами регулярно говорят о геноциде своего населения.

Мы визуализировали статистику количества погибших на Донбассе военных и гражданских лиц за период с 2014 по 2021 год. Все цифры взяты из ежегодных отчетов Уполномоченного по правам человека Донецкой народной республики. Таким образом, сюда не вошла статистика Луганской народной республики — ее омбудсмен на своем официальном сайте подобных отчетов не публикует.

По данным из ДНР видно, что большая часть жертв пришлась на первые два года конфликта — 2014 (тогда погибли 2546 человек) и 2015 (погибли 1395 человек). После этого интенсивность конфликта снизилась, и жертв стало на порядок меньше. В 2016 погибли 348 человек, в 2017 — 278 (из них 32 гражданских, остальные — военные ДНР), в 2018 — 154 (гражданских 19), в 2019 — 160 (гражданских 9), в 2020 — 44 (гражданских 9), в 2021 — 77 (гражданских 7). Для сравнения, в ДТП на территории ДНР гибнет около 90-100 человек в год.

«Геноцид» предполагает полное или частичное уничтожение целой этнической или религиозной группы. Можно ли назвать геноцидом вялотекущий конфликт, в котором гибнет несколько десятков военных и меньше десятка гражданских в год? Стоит ли «заканчивать» такой конфликт путем начала полномасштабных боевых действий, в которых сейчас уничтожаются целые города и даже по официальной статистике гибнут уже не десятки, а тысячи людей? На эти вопросы мы предлагаем каждому нашему читателю ответить самостоятельно.

Источники:
Ежегодные доклады Уполномоченного по правам человека в Донецкой народной республике
Путин назвал геноцидом происходящие на Донбассе события (новость от 15 февраля 2022 года)
Путин напомнил Шольцу, что 8 лет Запад не замечал геноцида жителей Донбасса (новость от 4 марта 2022 года)
Конвенция ООН о предупреждении преступления геноцида и наказании за него (содержит официальное юридическое определение геноцида)
Девяносто человек с начала года погибли в результате ДТП на территории ДНР (новость от 15 ноября 2019 года)
Что такое граф знаний
И почему поисковик понимает нас лучше, чем мы сами

Мы не знакомы, но общаемся с ним постоянно – например, когда напишем в строке поиска «маленький зеленый человек со световым мечом», а в результатах поиска встречаем Йоду из «Звездных войн». Рассказываем, что такое граф знаний и как он помогает поисковикам.

Knowledge Graph или граф знаний – это семантическая сеть, которая хранит взаимосвязи между объектами. Сущностью или «узлом»‎ графа может быть что угодно: человек, предмет, дата или концепция, а «ребра» отражают связи между сущностями. Например, Альберт Эйнштейн и город Ульм – две самостоятельные сущности, а «ребром» станет факт, что Эйнштейн родился в Ульме.

Графы знаний помогают связать данные из разных источников в единую коллекцию знаний. Взглянуть на Knowledge Graph в открытом доступе можно в Linked Open Data Cloud.

Но графы могут быть закрытыми и решать конкретные коммерческие задачи. С такими данными работают поисковики – например, Google, и голосовые помощники – Siri от Apple и Alexa от Amazon.

https://sysblok.ru/glossary/knowledge-graph-ili-graf-znanij-chto-jeto-takoe-i-gde-primenjaetsja/
«Мир в стране и цены пониже»: как поздравляли с Днем Победы в открытках

День Победы не сразу стал масштабным праздником: после 1945 года парадов 9 мая не проводилось 20 лет, а с 1948 года этот день и вовсе перестал быть выходным. Только в 1965 году 9 мая было официально объявлено праздничной нерабочей датой и состоялся первый послевоенный Парад Победы, заложивший традицию пышных торжественных шествий с обилием военной техники.

Примерно в те же годы возникает и гораздо менее официозная традиция открыточных поздравлений на День Победы — мы видим это по корпусу старых почтовых открыток, которые собирает «Системный Блокъ» в рамках проекта по оцифровке культурного наследия «Пишу тебе». Именно в позднесоветский период (1970-е – 1991) мы находим множество открыток с поздравлениями на 9 мая.

Читая эти открытки, легко увидеть, что в них совсем нет воинственной составляющей. Напротив, наиболее частый мотив — пожеланиям «мира», «мирного неба» , «чистого неба», «спокойной жизни». В сегодняшней коллекции «Пишу тебе» пожелания мира и мирной жизни присутствуют в каждой пятой открытке, так или иначе связанной с Днем Победы. Остальные открытки содержат пожелания, типовые для всех праздников: здоровья, счастья, успехов и различных житейских благ. Ближе к концу существования СССР и началу 1990-х мотивы мира и материального благополучия часто идут вместе.

Например, ниже вы можете увидеть открытку, отправленную бабушке сооснователя проекта на рубеже 1980-х и 1990-х. Вот что написано в поздравительной части открытки: «​​Ниночка милая! Поздравляю тебя, с днём Победы! это ведь большой и очень желанный праздник! Как мы его ждали! Пусть всегда будет мир в стране, а жизнь пусть будет получше. Чтобы пенсию прибавили побольше, а цены стали пониже. Здоровья тебе на долгие годы, чтобы увидела, как хорошо нашим детям и внукам живется. Счастья тебе родная, тепла, любви и радости!»

Кстати, нередко поздравители советского времени объединяли в одной открытке два главных майских праздника. В таких открытках еще чаще соседствуют друг с другом поздравления с Днем Победы и пожелания мира, традиционные для Первомая. Обложка открытки при этом может быть любой: как первомайской, так и «победной». Очевидно, что соединение Дня Победы и Мира-Труда-Мая для советского и ранне-постсоветского человека было совершенно естественным, а антивоенная составляющая была органичной для обоих майских праздников.

Посмотреть все открытки в коллекции «Пишу тебе», посвященные дню Победы, вы можете по ссылке. А здесь можно изучить открытку, процитированную выше.
Данные будут закрыты — как и границы с Европой

Одно из неочевидных последствий «спецоперации» — удар по открытости данных в российском сегменте интернета. Например, начиная с 7 марта сведения о закупках российских компаний, попавших под санкции, больше не появляются в Единой информационной системе (ЕИС). Есть и другие инициативы, например, проект о сокрытии сведений из ЕГРЮЛ и бухгалтерских балансов.

«Системный Блокъ» разобрался, на что надеются чиновники и какие побочные эффекты от сокрытия будут для общества. В этом нам помог эксперт по открытым данным, создатель АНО «Инфокультура» Иван Бегтин. Рассказываем по пунктам.

Зачем закрывают данные

— Поправки к закону, которые исключают компании из ЕИС, приняты «в целях нивелирования последствий ограничительных мер со стороны недружественных иностранных государств». То есть российский минфин пытается защитить как сами предприятия, так и тех, кто ведет с ними бизнес.

— По мнению чиновников, «спрятанные» компании смогут производить конкурентные закупки, у них будет меньше риск утечек информации, а их поставщики смогут избежать вторичных санкций за сотрудничество с ними.

В чем проблема для общества и экономики

— Сопутствующий ущерб здесь несут как общество, так и бизнес. Для общества открытость данных — инструмент контроля над государством. Например, именно через открытые данные были раскрыты многие коррупционные схемы с участием госкомпаний.

— Но есть и прямые экономические потери. Данные — «новая нефть», и бизнес может использовать открытые данные в дополнение к закрытым коммерческим, выявляя нужды потребителя. Информация о пробках, авариях и камерах на дороге, которую мы получаем, открыв навигатор, также отчасти опиралась на открытые данные.

— Без данных вроде ЕГРЮЛ невозможно проводить адекватный аудит, due diligence и проверку добросовестности контрагента. Это повышает риски любой крупной коммерческой деятельности.

Что будет дальше

— Раньше государство было мотивировано открывать данные не только и не столько общественным запросом, сколько участием в международных организациях, у которых были стандарты открытости:

«Требования к прозрачности устанавливались разными международными соглашениями и требованиями. Когда стали происходить последние события, эта вся международная повестка дня стала отмирать. И наши чиновники сейчас говорят — и с их точки зрения вполне резонно — а зачем нам открывать какие-то данные, если мы делать это не обязаны? Остается только внутренняя повестка, то есть диалог с гражданами. А диалог с гражданами у нас сейчас стараются всячески отвести от открытости», — говорит Иван Бегтин.

— Дальше, по мнению Бегтина, будет только хуже. Данные буду продолжать закрывать, мотивируя это рисками новых санкций и кибератак:

«Здесь стоит ожидать, что будет дальнейшее сокрытие информации, — говорит эксперт. — Конечно, это не имеет никакого отношения к интересам граждан. Гражданам всегда интересно знать о том, на что пошли деньги их как налогоплательщиков. Это исключительно защитная реакция государства на внешнее давление».

https://sysblok.ru/society/dannye-budut-zakryty-kak-i-granicy-s-evropoj/
​​​​«Заговори, чтобы я тебя увидел»: эволюция диалога в русской литературе XIX века
Литература как любая сложная система развивается и эволюционирует. Какие-то произведения остаются в центре внимания читателей на десятки и даже сотни лет, другие забываются сразу после издания. Так работает «литературная эволюция», модель которой начинал разрабатывать русский филолог Юрий Тынянов (подробнее об этом — в нашем прошлом материале).

Сегодня ученые выясняют, применима ли эта концепция к отдельным частям произведения — например, к диалогу.

Как проверяли гипотезу?
Исследователь Олег Собчук решил проверить гипотезу на материале русских романов XIX века. Он собрал выборку из 400 русских романов, среди которых не только тексты Тургенева, Толстого и Достоевского, но и ряд так называемых «писателей одного романа». Затем решил вычислить коэффициент «живости диалога» — количество высказываний, поделенное на количество строк.

Что это за метод?
Его в «Методологии точного литературоведения» предложил филолог-формалист Борис Ярхо, но он работал со стихотворными пьесами, так что пришлось немного изменить «формулу». Получилось: коэффициент живости диалога = число высказываний / число слов в романе.

И какие результаты?
Во-первых, Собчук установил, что с 1830 до 1890 годов коэффициент «живости диалога» увеличился вдвое. Другой вопрос, почему так произошло. На него есть как минимум два ответа:
1. Диалоги помогают писателям создавать интригу, а за интригой читатели в среднем тянутся больше, чем за описательными фрагментами. Интриги и возбуждения интереса требовал не только реализм, но и дух времени: стремление к познанию, свободе и чувству удовлетворенности.
2. Русские романисты ориентировались на популярных западных писателей. Например, на Вальтера Скотта и Альфреда де Виньи, в текстах которых диалогов действительно очень много. Причём французский романист оказал на русскую аудиторию даже большее влияние чем английский, всем виной всеобщая галломания XIX века.

Исследование Собчука ограничилось периодом до 1900 года: как развивался диалог дальше, неизвестно. И хотя он отмечает, что в в ХХ веке русская литература вряд ли стала более «диалогичной», этот тезис ещё предстоит подтвердить.

Источник: The Evolution of Dialogues: A Quantitative Study of Russian Novels (1830–1900)
Правильность в языке: миф или реальность

Что имеют в виду люди под правильностью и грамотностью в языке? Вправе ли один носитель поправлять другого? И можно ли, наконец, расслабиться и говорить так, как тебе удобно? Объясняет «радикальный лингвист», кандидат филологических наук Алексей Богданов.

Чтобы ответить на эти вопросы, важно прежде всего понимать, что язык — это некоторая знаковая система, которая «выросла» в голове у человека за очень долгое время. Устный, естественный язык не придуман человеком, не изобретен им. Он развился в человеке. А письменность — всего лишь инструмент, который человек изобрёл для большего удобства. У половины языков письменности вообще нет.

🧐 Это позволяет нам заключить, что каноны и нормы письменного языка (которым нас, в частности, учат в школе) такие же искусственные, как и он сам. Носитель языка может эти правила нарушать и писать неправильно, но говорить неправильно он не может по определению. Как, например, птица не может неправильно летать.

Отдельные исключения — случаи, когда человеку, например, не хватает словарного запаса, так что незнакомое слово он сначала употребляет неверно. Кто-то плохо владеет научными терминами, а кто-то — русским матерным. Но всё это легко поправимо.

🤔 А вот тот, кто неверно произносит слово «звонит» (вы, кстати, как его произносите?) на самом деле не ошибается. Его вариант может не соответствовать языковой норме, но язык — система динамичная, так что норма постепенно меняется. И источником этих изменений всегда являются менее частотные варианты, которые вытесняют более частотные.

С научной точки зрения норма, понимаемая как более правильный или более хороший вариант, — это нонсенс.

Подробнее о том, что на самом деле учат в школе вместо русского языка, почему лингвисты не верят в языковую норму, какие «правила» русского языка отмирают прямо на наших глазах и что же будет со словом кофе — читайте в полной версии поста по ссылке. :

https://sysblok.ru/blog/pravilnost-v-jazyke-mif-ili-realnost/
​​«Размечено»: как распознавать именованные сущности в исторических дневниках

Дневники людей, живших в различных исторических эпохах, могут многое сказать исследователю. Рассказываем в новой статье, какой цифровой корпус для будущих исследований с применением ML создали в рамках проекта «Размечено»

Кратко: о чём статья?

В 2015 году появился корпус исторических дневников «Прожито», которым сегодня активно пользуются исследователи из разных сфер. Но находить все необходимые данные вручную было бы слишком проблематично, так что для автоматизации поиска интересующих дат, мест и событий существует распознавание именованных сущностей (named entity recognition, NER).

А в 2019 году был создан корпус LitBank — датасет для NER, составленный на основе 100 классических произведений англоязычной литературы. Благодаря нему появилась идея создать подобный датасет для русского языка. Особенно в свете появления других корпусов исторических текстов — «Project1917», «Пишу тебе». Так появилась идея создания «Размечено».

Всего в датасет вошла 1331 дневниковая запись, взятая из 124 уникальных дневников и состоящие из 14119 токенов (в этом случае токены — слова). Тексты были размечены на предмет упоминания имён, местоположений, организаций, учреждений, характеристик человека и прочих именных сущностей.

В дальнейшем на основании этой разметки можно решать задачи извлечения событий и построения сложных нарративов, характерных для дневников. Помимо этого, описанный алгоритм разметки данных можно перенести на любой другой корпус — например, на дневники из Прожито за другую эпоху.

Полный текст статьи, примеры разметки и подробности о том, как функционирует «Размечено» — по ссылке.

Время чтения: 12 минут.
Ничего не закончилось: как люди уезжают из Украины и возвращаются обратно

«Системный Блокъ» проанализировал данные о миграции из Украины с начала боевых действий.

Всего за три месяца из Украины уехали больше семи миллионов человек — это больше, чем в любой другой миграционный кризис с середины ХХ века. Самым популярным направлением миграции стала Польша, а второе и третье место поделили Румыния и Россия.

Но с апреля люди возвращаются обратно в регионы, откуда огонь отступил: Киевскую и Черниговскую области, Западную Украину. В Украину уже вернулась треть уехавших — это почти 3,3 миллиона человек, еще 5,5 миллионов остаются в Европе.

Теперь больше всего украинских беженцев в России: здесь размещаются 1,5 миллиона человек, хотя данных о вернувшихся из России нет. Кроме России и Польши, многие нашли пристанище в Германии – там сейчас находятся 867 тысяч человек.
​​«К идее разных интернетов мы пока не привыкли»: Полина Колозариди об исследованиях интернета

«Системный Блокъ» поговорил с Полиной Колозариди — интернет-исследовательницей, координаторкой Клуба любителей интернета и общества, преподавательницей ИТМО и НИУ ВШЭ — о том, чем занимаются интернет-исследователи, как развивался и чем различается интернет в разных городах России, и как связаны интернет и демократия.

Кратко: о чём интервью?

Любое интернет-исследование начинается с проблематизации: что мы называем интернетом в каждом конкретном случае? Точно ли нас интересует интернет, а не что-то другое? Только определив это, можно переходить к подбору концептуального (наиболее точного и подходящего) языка и методологии.

При этом важно осознавать, насколько по-разному воспринимают интернет сами пользователи, насколько по-разному с ним обращаются. Например, как отмечает дана бойд в книге «Все сложно», для подростков это не технология, а скорее способ публичной жизни. Особенно интересны исследователям локальные истории глобального интернета (в разных регионах, странах, городах), про то, как именно люди пользуются интернетом, и как это отличается в разных странах.

Для книги, которую Полина с командой сейчас готовят к выпуску, они два года ездили в экспедиции в разные города России: история интернета отличается в каждом российском городе, поскольку он протягивался не государством (унифицированно), а разными акторами — бизнесом, университетами,  активистами, библиотеками, фондами.

Не менее интересный сюжет — интернет во время пандемии. Когда в одних странах всех немедленно перевели на удалёнку, в других — школьников выводили в оффлайн при первой возможности. Кто-то так и остался работать полностью онлайн, а где-то, наоборот, усиливается оффлайн-жизнь.

Подробнее об этих и других сюжетах, которые волнуют интернет-исследователей: демократии, политике и социальных связях в интернете, ТикТоке и Тиндере, можно узнать из полной версии интервью на сайте.

Время чтения: 32 минуты.
Что и зачем вычисляют филологи: 7 стилометрических исследований

Сегодня филологи не только активно читают, но и активно вычисляют: авторство, особенности перевода, даже эмоции в текстах.

Основной метод такого статистического анализа – стилометрия. Он требует компьютерных вычислений и может использоваться в исследованиях художественных переводов, гендерных особенностей в языке и других целях. Больше о стилометрии и её функциях— читайте в нашей подборке.

Стилометрия: как в разное время люди искали авторов текстов
Чтобы понять, с чего начиналась стилометрия и к чему пришла сегодня, нужно пройти путь от 1440 года до 2022. К счастью, его краткий маршрут можно найти в статье.

В чём заслуга Лоренцо Валла? Как экспериментировали в способах определения авторства? Почему шекспировский вопрос до сих пор открыт?

Время чтения: 17 минут.

Компьютерная атрибуция текста: установка авторства текста
Одна из важных задач стилометрии – установить автора текста. А иногда и установить, сколько авторов над ним работали. Исследователей «Беовульфа» волновал именно этот вопрос, но договориться всё равно не получилось.

Каковы идеальные условия для стилистической атрибуции? Почему даже в гуманитарных науках важна воспроизводимость эксперимента? При чём тут Андрей?

Время чтения: 17 минут.

Кстати, у этого спора цифровых филологов есть продолжение! Если захотите узнать ещё больше о проблеме «Беовульфа», найдёте его здесь.

Компьютер нашёл автора пьес Мольера (спойлер: это Мольер)
С Мольером вопросов не так много, как с Шекспиром, но в авторстве его пьес всё равно подозревали Корнеля. Стилометрия эту теорию опровергла, но к исследованию всё равно осталась пара вопросов.

Почему вообще возникли сомнения в подлинности текстов Мольера? Как предлоги и артикли помогают установить авторство? Когда исследовать фрагменты было бы лучше, чем целые тексты?

Время чтения: 3 минуты.

Как менялись песни Битлов и можно ли вычислить эмоции компьютерными методами?
Исследование психологами песен The Beatles фокусировалось не просто на частотности слов, но на смене эмоций в текстах. Это стало возможно благодаря коннотациям и особому «Словарю эмоций».

Как измерять эмоции в тексте? Какая эмоция в песнях The Beatles наименее предсказуемая? Кто из битлов отвечал за слова «girl» и «dead»?

Время чтения: 6 минут.

Тайна стихов декабриста Батенькова
Один из самых популярных стилометричкеских методов – дельта Барроуза. Он фокусируется на частоте употребления в них служебных слов, благодаря которым можно установить авторство. Пример исследования этим методом – стихи поэта-декабриста.

Почему вообще возникла проблема верификации текстов Батенькова? Кто «подкинул» Батенькову чужие тексты? Как компьютер различал тексты разных авторов?

Время чтения: 15 минут.

Разделяй и определяй, или Кто автор «Сна в красном тереме»
Исследования древнеанглийской литературы, французской комедии XVII века, русских стихов современника Пушкина… но как насчёт авторства одного из «Четырех великих романов Китая»? Ещё один пример использования дельты Барроуза и дополнительных стилометрических методов.

Что такое тематическое моделирование? Кто добавил в восьмидесятичастный роман ещё сорок частей? Почему даже один метод может дать противоречивые результаты?

Время чтения: 7 минут.

Есть ли стиль у переводчика? А если найдем?
Ещё одна задача стилометрии – определить точность перевода. Благодаря таким исследованиям удаётся понять, насколько точно переводчику удалось передать стиль оригинального автора, и не оказалось ли в нём слишком много собственных стилистических находок.

Правда ли, что американский читатель не отличит Толстого от Достоевского? Угадывает ли компьютер автора оригинала по переводу? Можно ли «вычислить» особенности стиля конкретного переводчика?

Время чтения: 8 минут.
Точка, точка, запятая: как интернет меняет язык

Обнажаем скрытый смысл отдельных символов и размера букв в онлайн-переписке

Сеть меняет нормы общения и придаёт стандартным правилам и символам письменного литературного языка новые смыслы. В онлайн-сообщении смысл может скрываться именно в них — будь то точка в конце сообщения или буква «а» в слове «молоко».

Ученые только начинают исследовать это явление, но уже говорят о нескольких «трендах отмены». Давайте на них посмотрим:

Точка пропадает из цифрового общения

В литературной речи точка фиксирует конец предложения или текста. Но в онлайн-чатах эту функцию выполняет факт отправки сообщения, а одно сообщение часто состоит из одного предложения.

В результате точка привлекает особое внимание и будто несёт дополнительный смысл. По мнению лингвиста Марка Либермана, в сообщениях с точками на конце сегодня чувствуется резкость и даже агрессивность.

Заглавные буквы уступают место «элегантному шепоту» строчных

Многие пользователи пишут маленькими буквами там, где по правилам нужны большие. Здесь всё просто: правильное применение заглавных буквы никак не меняет смысл сообщения.

Скобки перестали быть знаком препинания

Скобки как знак препинания почти не используются, потому что язык в мессенджерах ближе к разговорному, чем к письменному. Но в российском интернете они превратились в самостоятельный символ, обозначающий радость или огорчение.

Кстати, для европейцев существуют только цельные эмодзи из двоеточия, дефиса и скобки или современные эмодзи-смайлики. Поэтому скобки — неожиданный пример того, что даже во всемирной сети языки развиваются по-разному.

О том, как пробел связан с психотерапией и какие впечатления создают опечатки и намеренные ошибки, читайте в нашей статье.

Время чтения: 9 минут.
Правильность в языке: а судьи кто?

Кто решает, что звОнит — это неправильно, а «кофе» мужского рода? И главное, откуда у этого кого-то знание о том, как правильно? Продолжаем разбираться с «нормой» в языке вместе с Алексеем Богдановым — кандидатом филологических наук и «радикальным лингвистом».

Если первый пост в его блоге был посвящен научной стороне вопроса, то этот — общественной. Ведь именно в дискуссиях, как правило, возникают ситуации, когда люди стремятся установить истину, обращаясь при этом к словарям и gramota.ru.

🤔Доверять ли «Грамоте» и подобным сервисам?

И да, и нет. В случае вопросов про орфографию ответ обычно может быть найден в словарях или справочниках по орфографии, и это совершенно нормальная ситуация. А вот многие разговорные конструкции не имеют узаконенного варианта написания, так что в этих вопросах все носители языка в равной степени специалисты (даже больше, чем словари).

🤔А как, собственно, создаются словари?

Здесь есть несколько путей. Первый и самый очевидный источник — перепечатать вариант произношения слова из другого издания. Второй — эксперимент: авторы могут выйти на улицу и опросить какое-то количество носителей так, чтобы понять, какой из вариантов они употребляют из нескольких возможных. Так, правда, происходит очень редко (а жаль).

Есть и ещё несколько опций, о них — в полной версии поста. Но важно прежде всего понимать: как бы хорош ни был словарь, информация в нём будет быстро устаревать, поскольку живой язык постоянно меняется.

🤔Откуда тогда вообще берутся «правильные» варианты?

Забавно, но зачастую «правильные» варианты формируются совсем не последовательно. Например, из целой системы изменений ударения однотипных глагольных форм (звонИт, курИт, солИт и др.) в норму вошел только один глагол. А отмирание форм косвенных падежей фамилий на -енко прошло вовсе незамеченным защитниками нормы. Вариант внутри Лапенки еще каких-нибудь 50 лет назад был бы наиболее распространенным. Теперь же так почти не говорят — а говорят, конечно, внутри Лапенко.

Ещё больше примеров незамеченных изменений, источников словарных норм и бесполезных «правильных» вариантов найдёте в полном тексте поста.
«Системному Блоку» четыре года: вспоминаем четыре главных поста последних месяцев

В последний год работы «Системный Блокъ» много писал о том, что происходит не только в мире науки, но и в мире вообще. Неудивительно, что в числе главных постов этого года — сухие страшные цифры, новые технологии и значимые исследования.

Заявления и цифры: статистика погибших на Донбассе с 2014 по 2021 год

«Системный Блокъ» визуализировал статистику количества погибших на Донбассе военных и гражданских лиц за период с 2014 по 2021 год. Все цифры взяты из ежегодных отчетов Уполномоченного по правам человека Донецкой народной республики, и из них видно, что большая часть жертв пришлась на первые два года конфликта — 2014 (тогда погибли 2546 человек) и 2015 (погибли 1395 человек). Статистика за 2022 год в посте не приводится.

Полный текст поста

Приказано забыть: каким данным угрожает ликвидация «Мемориала»*

14 декабря 2021 года проходил суд над «Мемориалом» — старейшей правозащитной организации России, главным хранителем памяти о репрессиях.

«Системный Блокъ» проанализировал статистику о данных, которые собрал «Мемориал» за годы своей работы. Это не только три миллиона карточек репрессированных из Книг памяти, но и более миллиона страниц оцифрованных воспоминаний о ГУЛАГе, а также информация о местах захоронений, принудительного труда и массовых расстрелов в Москве.

*Решением минюста «Международный мемориал» внесен в реестр НКО, выполняющих функции «иностранного агента»

Полный текст поста

Пост из мирной жизни: новая технология улучшения качества изображений

В сентябре Google представил технологию, которая может увеличить фотографию размером 32×32 до 256×256 (в 8 раз) или 64×64 до размера 1024×1024 (в 16 раз) — и все это без потери качества! Её применение может быть одинаково полезным при восстановлении старых семейных фотографий и улучшении медицинских визуализаций (изображений, полученных при УЗИ, МРТ или, например, рентгенографии).

Полный текст поста и видео о технологии в нашей группе Вконтакте

Интерактивный учебник по Python для гуманитарных исследований

В январе 2021 года Принстонский университет выпустил монографию «Humanities Data Analysis: Case Studies with Python». Сегодня её можно читать онлайн на интерактивном сайте — с графиками, кодом, ссылками на источники и датасеты.

Описанные в книге методы и инструменты применяются в самых разных исследованиях: от изучения читательской аудитории и установления авторства прозы XII века до анализа кулинарных книг и судебных решений. Этими кейсами можно вдохновляться, а код — использовать для своих задач.

Полный текст поста

P. S. Если пятилетний юбилей вы хотите отметить вместе с «Системным Блоком», самое время присоединиться к нашей команде. Заполняйте форму по ссылке, а мы обязательно с вами свяжемся!
Знатный борщ, голодная тетка и мужик-молодец: как менялись значения слов в русском языке на протяжении XVIII-XIX веков

За два века слово может изменить свое значение до неузнаваемости. Многие слова, которыми мы пользуемся сегодня, совершенно иначе воспринимались нашими предками. Тест на лингвистическую интуицию: сможете ли вы догадаться, когда возникла поговорка «голод не тетка», а слово «молодец» стало похвалой?
Тревоги «маленьких людей» Англии XVI-XVIII веков: на что жаловались и чего добивались крестьяне и горожане

В Англии XVII—XVIII вв. подача петиций и жалоб была обычным делом. Рассказываем про цифровой проект английских ученых, который позволяет проанализировать обращения крестьян и горожан в вышестоящие инстанции.

Кратко: о чём статья?

О проекте «The Power of Petitioning in Seventeenth-Century England», архиве жалоб и петиций англичан живших в XVII—XVIII вв. На сайте проекта любой исследователь или случайный посетитель имеет неограниченный доступ как к архиву обработанных петиций, так и к научным публикациям авторов проекта. Он помогает ответить на такие вопросы: с какими проблемами англичане чаще всего обращались к властям? Каким государственным лицам они писали? Как оформлялись петиции, чтобы их рассмотрели и дали желаемый ответ? Какие риторические техники использовались для убеждения властей?

А ещё можно узнать, чем началась и закончилась история с жалобами заключенных на тюремную администрацию в 1710 году, и выяснить, что говорят петиции о положении женщин в Англии, которые добивались королевских амнистий, оправдательных приговоров и запрещённых свиданий.

Подробности этих и других историй — в полной версии статьи.

Время чтения: 11 минут.
Обзор магистратур по цифровым гуманитарным исследованиям
#education #digest

Где в России в 2022 году учат на цифрового гуманитария? Куда можно зайти с дипломом филолога (историка, культуролога, мемолога…) — и выйти с навыками программирования, анализа и визуализации данных, веб-разработки, с опытом работы в междисциплинарной исследовательской команде? Где с радостью примут программиста, математика или физика, мечтающего о применении своих скилов в гуманитарных исследованиях?

«Системный Блокъ» снова рассказывает про актуальные магистерские программы в области Digital Humanities в России.

«Цифровые методы в гуманитарных науках»
НИУ ВШЭ, Москва
Магистратура от DH-центра Вышки. Здесь можно прокачаться в Python, особенно если вы пришли с нулевым уровнем, разобраться в анализе данных, не имея технического бэкграунда, и, конечно, погрузиться в современные Digital Humanities. У магистратуры есть уклон в работу с текстовыми данными, но это не мешает отдельным студентам заниматься 3D-моделированием памятников архитектуры или компьютерным зрением в исследованиях кино. Выпускники работают в Яндексе, Сбере, ABBYY и в той же Вышке, некоторые уже учатся на зарубежных PhD программах. В этом году прием документов до 26 июля.

«Цифровые методы в гуманитарных исследованиях»
ИТМО, Санкт-Петербург
Раньше эта программа называлась очень модно и молодежно: «Data, Culture and Visualization» — и она по-прежнему заточена под разные креативные индустрии и профессии. Если вы мечтаете менеджерить и курировать цифровые проекты, дизайнить и проектировать креативные пространства — вам сюда. Еще на этой программе сильные internet studies, если вы вдруг мечтали изучать твиттер или там ранний русский интернет. Ну и традиционно у ИТМО много контактов с питерскими культурными институциями: музеи, библиотеки, выставочные площадки, бары. Технические навыки вроде Python, основ NLP и анализа данных — прилагаются.

«Цифровые методы в гуманитарных науках»
НИУ ВШЭ, Пермь
Программа от пермского кампуса Вышки собрала хорошую команду специалистов по цифровой истории (исторические базы данных, исторические ГИСы, исторический сетевой анализ, 3D-моделирование), Digital Humanities и новым медиа. В результате студенты занимаются самыми разными проектами: от исследования образа города в соцсетях до изучения Карибского кризиса через корпусный анализ. Еще магистратура примечательна тем, что одна из выпускниц прямо в процессе обучения стала директором агентства по науке Тывы. Технические навыки, как и в предыдущих случаях, входят в набор: здесь учат Python, основам анализа данных

«Магистратуры Digital Humanities»
ТГУ, Томск
Здесь делают две сестринские программы, объединенные под вывеской Digital Humanities. Это «Человек и технологии в цифровом мире» и «Дизайн и разработка графических пользовательских интерфейсов». Первая программа — более гуманитарно-философская, она про осмысление и критический анализ цифровой трансформации мира. Впрочем, прикладные навыки тоже дают — учат основам менеджмента в IT, основам Python, сетевому анализу. Вторая программа — более техническая, и посвящена разработке интерфейсов, но с максимальным вниманием к человеку, который пользуется интерфейсам, и его «человеческим» свойствам.

«Цифровые технологии в филологии, компьютерная лингвистика»
ЮФУ, Ростов-на-Дону
Программа по Digital Humanities от Южного федерального университета. Здесь уже из названия виден уклон в филологию и лингвистику — программа представляет собой этакий гибрид курса компьютерной лингвистики и Digital Humanities. Здесь тоже преподают основы NLP, учат кодить на Python, но к этим обязательным вещам добавлены локальные специи — например, цифрогуманитарные курсы по донскому фольклору (sic!). Во время практики здесь можно поработать с корпусом донских говоров ДонКРЯ, а также поучаствовать в проекте цифрового семантического издания А. П. Чехова Chekhov Digital.
Что такое машинное обучение?
Машинное обучение — это набор методов, которые позволяют компьютеру решать сложные задачи, не используя точный алгоритм действий. Постепенно во всё большем количестве областей оно позволяет достичь если не прорыва, то существенного прогресса: AlphaFold успешно решает одну из главных задач биологии и медицины, PaLM способна отвечать на вопросы, генерировать программный код, суммаризовать тексты.

Кратко: о чём статья?
Машинное обучение не предполагает готовых точных алгоритмов. Допустим, для написания программы, которая определяла бы, кто на изображении — кот или собака, программисту пришлось бы придумывать алгоритм, с помощью которого определялись характерные признаки животных (форма ушей, длина лап и хвоста, и другие), далее понадобился бы алгоритм, который по этим характерным признакам отличал кошек от собак и т.д.

Из-за огромной вариативности картинок формализовать решение такой задачи почти невозможно. А методы машинного обучения позволяют обойти эту проблему с помощью процедуры обучения, посредством которой компьютер сам выделяет из данных закономерности и признаки, необходимые для решения задачи.

Под процедурой обучения подразумевают подбор оптимальных (с точки зрения качества решения задачи) параметров модели. Набор данных, содержащий входы (например, изображений котов и собак) и правильные ответы для них, называется обучающей выборкой. На ней и проводится обучение модели. В процессе обучения мы явно, как учитель, «указываем» модели на её ошибки. Но есть методы, для работы которых разметка обучающей выборки не требуется. Такие методы называются машинным обучением без учителя.

Примеры таких случаев, подробный разбор процессов обучения и картинки с собаками найдёте в полном тексте статьи.

Время чтения: 8,5 минут.
Тогда и сейчас: 4 статьи о том, как (не) изменился мир

В материалах по истории мы часто проводим параллели между миром сегодня и 300, 400, 500 лет назад. В этой подборке «Системный Блокъ» собрал для вас тексты, которые особенно наглядно показывают изменчивость и постоянство общества, в котором мы живём, и мира, который нас окружает.

Социальная сеть Бэкона: фейсбук 500-летней давности
Проект «Шесть рукопожатий Бэкона» восстановил связи и знакомства англичан, живших с 1500 по 1700-й годы, визуализировав их на единой карте (спойлер: выглядит очень эффектно).

Как выяснить, кто с кем «дружил» 500 лет назад? Знал ли Бэкон Шекспира и Ньютона? Сколько «друзей» было у грозы морей, Фрэнсиса Дрейка?

Время чтения: 5 минут.

Шпионаж и слежка 400 лет назад
Материал о том, как найти письмо шпиона среди 20 000 писем эпохи Тюдоров. И, конечно, о том, как обстоят дела со слежкой спецслужб сегодня.

Стоит ли опасаться за свои метаданные (и что отличает их от обычных данных)? Когда «не-чтение» эффективнее чтения? Что такое сетевой анализ?

Время чтения: 14 минут.

300 лет дистанционного обучения
Рассказываем о том, как было устроено дистанционное обучение в XVIII веке и о том, как уже в 1980-е годы появилась возможность учиться «онлайн».

Чему и как учили первых дистанционных учеников? Где и когда появились дистанционные курсы иностранных языков? Какой университет рискнул запустить первые онлайн-программы для бакалавров и магистров (и чем это закончилось)?

Время чтения: 10 минут.

221B, 302-бис и улица Садовая: адреса сегодня и 300 лет назад
Разбираемся с тем, как и зачем появились номера домов, а также как они связаны с Просвещением, призывом в армию и дискриминацией евреев в Европе.

Как искали дома, пока не было адреса и номера? Почему про берлинскую нумерацию Твен писал, что «сделал эту систему полный идиот; но идиот не мог бы придумать столько вариаций»? Какие способы нумеровать дома вообще существуют?

Время чтения: 10 минут.