Системный Блокъ
10.8K subscribers
241 photos
2 videos
1 file
873 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
加入频道
«И вообще хочу на пенсию!»: подборка открыток про труд

Вчитываясь в открытки, что люди отправляли друг другу в прошлом, мы можем не только проследить, сколь распространенным в СССР было пожелание «успехов в труде (или работе)», но и узнать про личный профессиональный опыт учителей, врачей, военных, рабочих заводов и колхозов. В сегодняшней подборке открыток — первая казачка-шофер, учительница, устраивающаяся в киоск, предсказания «экстрасенсши» на карьеру, вечно задерживающаяся зарплата и прочие трудовые будни. В этом посте делимся двумя текстами из подборки.

🔮 Экстрасенсша нагадала

«Дорогие Нина Семёновна и Лидия Алексеевна! Поздравляю вас с Пасхой! Наконец-то кончается зима и наступает время обновления и очередная волна оптимизма. Желаю, конечно, здоровья и мужества. По сравнению с горячкой и волнениями первых 2х месяцев, теперь относительный порядок и спокойствие. Главное — имею уже работу по специальности, среди приятных доброжелательных людей, вобщем [^в общем], просто здорово! (как мне нагадала экстрасенсша). Я о вас помню и буду терпеливо ждать писем, разумеется и сам буду писать, пока не забыл по-русски. Привет родным и знакомым. Обнимаю вас и целую Андрей».

🏭 Хождение по заводам
 «Дорогие папа и мама! Вчера получил Вашу открытку. Семян белой акации конечно захвачу, их тут пропасть. Хождение по заводам уже почти закончили. Теперь только пишем отчеты. По одному цеху нам уже отчет подписали. Жара стоит по-прежнему. Снимаю, но проявлять здесь не отдавал ещё. Хотя может быть попробую. О юге пока ничего точно не известно, хотя ходят слухи, что в Москве об этом хлопочут. Если поедем на юг, то я напишу об этом. Вот пока и все о нашей жизни. Всем приветы Крепко целую. Валя. 24/VI.54».

Комментарии волонтёров проекта «Пишу тебе» и остальные открытки про чудодейственную мазь, работу писарем, нехватку учителей и истинное счастье найдёте в полной версии статьи на сайте.
Шифропанки — анархисты интернета 

В конце 80-х годов опасения, что госструктуры будут контролировать зарождающийся интернет, привели к возникновению движения шифропанков. Эти интернет-активисты выступали за конфиденциальность в киберпространстве. Шифропанки совершенствовали технологии криптографии, которые сегодня лежат в основе криптовалют и известных проектов Tor и WikiLeaks. Разбираемся, как шифропанки хотели изменить общество и интернет.

Кратко: о чём статья?

Основатели движения шифропанков — Тимоти Мэй (Timothy C. May) и Эрик Хьюз (Eric Hughes) уже в 1980-х считали, что Интернет рискует стать платформой, в которой информация о человеке может быть легко получена государством и его институтами. В 1988 Мэй написал свой «Манифест криптоанархиста», а Хьюз в «Манифесте шифропанка» 1992 года предложил несколько вариантов защиты данных: анонимная пересылка почты, электронные деньги и цифровые подписи. 

Шифропанки рассматривали конфиденциальность как базовое и неотъемлемое право человека. Впоследствии Джуллиан Ассанж (Julian Paul Assange), единственный шифропанк не из США, сместил этот фокус в сторону прозрачности благодаря «WikiLeaks», его проекта по публичному обнародованию секретных документов государств и корпораций.

В своих технологиях и идеях шифропанки вдохновлялись политическими идеологиями, научной фантастикой, хакерской этикой и контркультурой. Романы «Подлинные имена» Вернора Винджа, «Игра Эндера» Орсона Скотта Карда и «Нейромант» Уильяма Гибсона, например, высоко ценились участниками движения и считались источниками их мировоззрения.

О том, как на шифропанков повлиял один из самых известных хакеров в истории интернета и роман «1984» Джорда Оруэлла, а также о том, как развивается движение сегодня — в полном тексте статьи.

Время чтения: 9 минут.
Бот ChatGPT против человека и других роботов

Новости о развитии искусственного интеллекта попадают на первые полосы различных медиа, а про ChatGPT слышно из каждого утюга. При этом, различным моделям ИИ приходится конкурировать по степени «разумности» не только с человеком, но и между собой. Разбираемся с конкуренцией между моделями ИИ, между ИИ и человеком, преимуществами и недостатками бота ChatGPT и его аналогов, а также моральной ответственностью и человеческим снобизмом.

Кратко: о чем статья?

Сегодня умение нейросетей писать бизнес-планы, тексты для копирайтеров и коды для программистов большинство воспринимает как невероятный прорыв в технологиях. При этом голосовые помощники, которые 12 лет назад вызывали не меньший восторг, уже не кажутся такими революционными: ChatGPT способен написать книгу о ядерной физике, а Siri даже не может переключить трек. Правда, даже у самых современных нейросетей есть свои недостатки: например, основная проблема GPT-4 (подробнее об этой модели — в нашем материале) в том, что она не подключена к интернету и, соответственно, оперирует только информацией, которую получила до сентября 2021 года. И пока Google экстренно дорабатывает свой бот Bard с доступом к сети, Microsoft уже опередил всех своих конкурентов и интегрировал технологию ChatGPT в поисковик Bing, встроенный в браузер Microsoft Edge. 

Что же касается сравнения возможностей искусственного и естественного (человеческого) интеллектов, по мнению когнитивного лингвиста Ноама Хомского, самым большим недостатком ИИ является отсутствие способности не только описывать настоящее, но также говорить о том, чего нет, что могло и не могло бы произойти. Машина все еще не справляется с теми задачами, которые требуют человеческого жизненного опыта — разговаривать на любые темы (тест Тьюринга), ориентироваться в пространстве и решать бытовые задачи (кофе-тест Уозняка), а также реализовывать сенсомоторные навыки (парадокс Моравека).

О мнениях специалистов на счет развития ИИ и желании пользователей спровоцировать нейросети — в полной версии статьи (а ещё в ней есть мемы).

Время чтения: 12,5 минут.
Цифровые архивы и базы данных по истории ХМАО–Югры для школьных уроков и проектов

Как увлечь школьников историей страны? Лучше всего — с помощью настоящих свидетельств из прошлого: писем с фронта, фотографий, музейных предметов и реальных архивных документов. Пойти в музей можно не всегда — но сегодня множество музеев оцифрованы. Об использовании цифровых архивов и электронных баз по истории Ханты-Мансийского автономного округа на уроках рассказывает учитель и блогер «Системного Блока» Юлия Папанова.

🏛️ Сводная база музеев ХМАО-Югры

В каталоге можно найти 283 783 экспоната из 32-х музеев округа. Среди них — оцифрованные документы, фотографии, картины, предметы прикладного искусства, быта и этнографии, предметы археологии и нумизматики. 

Эта база дает большие возможности для «визуализации» прошлого: можно предложить ученикам определить, что это и как использовалось, классифицировать предметы, расположить их в правильной хронологии, подготовить описание выставки и т.п. А ещё — проанализировать материалы, из которых сделаны предметы одежды, быта и культа, и сделать выводы о том, с кем торговали жители средневековой Югры.

🗺️ Виртуальный музей «История ссылки и спецпереселений в Ханты-Мансийском автономном округе – Югре. 1920-1950-е гг»

На сайте проекта представлены предметы быта, документы, фотографии, письма и интерактивная карта. Благодаря отдельным разделам можно узнать больше о жизни в ссылке и вкладе спецпереселенцев в развитие округа.

Автор блога использовала для урока, посвященного теме «Большого террора», архивно-следственное дело Куриковых, манси по национальности, приговоренных к смертной казни в 1937 году. А один из её учеников сделал исследование, в рамках которого привел доказательства, что это дело было сфабриковано.

👨‍👩‍👧‍👦 Генеалогический портал «Связь поколений Югры»
Этот портал — один из проектов Службы по делам архивов Югры. Его цель – помочь всем желающим в изучении своей родословной. На портал загружено более 280 метрических книг в период с 1730 по 1928 годы, в которых содержатся 704 308 записей о рождении, браке и смерти жителей автономного округа.

Ученики, чьи предки жили в автономном округе более ста лет назад, могут составить свое генеалогические древо на основе материалов портала.

О других базах данных и вариантах их использования узнаете из полного текста на сайте.
Разделить цену победы: кого, откуда и когда призывали в годы ВОВ?

Сегодня День Победы. День, когда мы вспоминаем всех, кто ушел на войну. Вернувшихся и не вернувшихся. А это десятки миллионов людей. Почти никого из них уже нет в живых: ни тех, кто погиб прямо там, ни тех, кто дожил до Победы. Но остались архивы. Предлагаем вам посмотреть на историю ВОВ через историю призыва и архивных документов.

Кратко: о чём статья?

В 2020 году «Системный Блокъ» исследовал большую базу записей о перемещениях солдат в журналах военно-пересыльных пунктов. Оказалось, что у каждой республики была своя история участия в войне и свой портрет призыва.

Призыв в РСФСР, Казахстане и Киргизии был схож и довольно стабилен на протяжении войны. По ходу войны призывной возраст снижался, а самый большой подъем призыва в РСФСР ожидаемо совпал с началом Великой Отечественной войны. В нем существенна доля взрослых людей старше 22 лет — были призваны резервисты, запасники, отставники.

Совершенно другой портрет призыва наблюдается в республиках, которые были полностью оккупированы в годы войны — Белорусской, Украинской ССР и республиках Прибалтики. Поскольку основной удар первых месяцев войны пришелся на них, провести полноценный призыв удалось далеко не везде, а после оккупации территории он стал невозможен и продолжился только после освобождения. Именно поэтому в Белоруссии призыв в 1944 году был самым многочисленным. Цифры свидетельствуют: несмотря на угон людей на работы в Германию и массовые расправы над местным населением, после отступления Вермахта освобожденные территории все еще могли обеспечить массовое пополнение рядов Красной армии.

Узнать подробности об особенностях призыва в оккупированных республиках, о спаде призыва в 1943 в республиках Кавказа и о трудовом призыве в Узбекской, Таджикской и Турменской ССР можно из полного текста статьи. Там же можно найти динамическую визуализацию данных, содержащую информацию по 14 основным республикам СССР.

Время чтения: 25 минут.
От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна

Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Изменения в работе НКРЯ были заметны ещё в 2019 году: тогда лингвисты высказали опасения о возможном закрытии сервиса. К счастью, проблемы оказались временными, и НКРЯ не только не прекратил свою работу, но и заметно изменился и расширился. Самым заметным обновлением стал новый дизайн сайта, но есть и много глубоких содержательных перемен. Об основных обновлениях в корпусе, очевидных и не очень — в нашем новом материале.

Кратко: о чем статья?

За последние пару лет в НКРЯ появились не только новые тексты, но и новые корпуса. Один из наиболее важных — панхронический, позволяющий находить тексты от средневековых до современных. В другом новом корпусе, «Русская классика», собраны не только основные тексты, но также черновики и редакционные варианты произведений. Наконец, для корпуса «От 2 до 15» был проведен масштабный опрос о самых популярных произведениях среди детей разных возрастов. В итоге в корпус вошли 75 наиболее популярных прозаических произведений зарубежных и отечественных авторов от «Гарри Поттера» до «Денискиных рассказов».

Среди других изменений — новые функции: поиск коллокаций, частотность выдачи и автоматическое снятие омонимии. А ещё — портреты слова и корпуса. Узнать о них больше, посмотреть портрет слова «чипсы» и познакомиться с другими обновлениями можно благодаря полному тексту статьи.

Время чтения: 10,5 минут.
Лермонтов или Толстой?

Сегодня снова предлагаем вам угадать, в стиле какого писателя нейросеть сгенерировала текст. А ещё — скоро выложим материал с подробной инструкцией о том, как самостоятельно научить ruGPT3 такому трюку.

«Я вышел за хлебом к булочнику. Я помню, как он схватил меня сзади и потащил куда-то; но я не хотел идти туда... И вдруг мы очутились на площади: это был тот самый сквер с фонтаном в саду у Марфы Петровны (там теперь ее дом). Вот этот сад! Это то самое место было тогда здесь во время пожара вместе со мною под судом? Так ты помнишь его?»
«Чей» текст сгенерировала нейросеть?
Anonymous Quiz
11%
Толстой
29%
Достоевский
14%
Лермонтов
15%
Сологуб
32%
Тургенев
Как дообучить языковую модель писать в стиле Достоевского

Как обучить нейросеть на своих данных? Какие бывают параметры обучения/генерации, и на что они влияют? Как оптимизировать процесс обучения, если нет видеокарты? Отвечаем на все эти вопросы в нашем туториале по файн-тюнингу ruGPT3 на текстах Достоевского.

Кратко: о чем
статья?

Fine-Tuning — это способ улучшить предварительно обученную модель, которая уже имеет некоторые знания, путем небольших корректировок. Благодаря нему языковую модель можно обучить генерировать тексты в самых разных стилях: от комментариев из Одноклассников до прозы Лермонтова. Для fine-tuning достаточно нескольких мегабайтов текстов, что примерно эквивалентно 10-15 произведениям.

При этом дообучение любых нейросетей требует вычислительные мощности, то есть GPU (видеокарты). Работать с видеокартой бесплатно можно с помощью сервиса Google Colab, в который как раз можно вместить самую маленькую версию русскоязычной модели ruGPT3. А в качестве данных можно взять готовый корпус, состоящий из 34 произведений Достоевского.

Если четко следовать инструкции, модель, подстраиваясь под стиль Достоевского, сгенерирует, например такую фразу: «Кофею, а? Нет-с. Не надо; да и не нужно…». На этом примере видно, что она уловила такие архаичные формы, как «кофею», словоерс «нет-с» и некоторые другие особенности поэтики писателя.

Полный подробный текст инструкции для дообучения модели на корпусе Достоевского, построчно прокомментированный скрипт для обучения языковых моделей и примеры других результатов найдёте в полном тексте статьи. Если будете обучать модель на текстах других писателей (или — тоже Достоевского) — обязательно делитесь в комментариях результатами.

Время чтения: 19 минут.
Русско-китайский параллельный корпус

Параллельный корпус — это корпус, состоящий из оригинального текста и его переводов на другие языки. Параллельные корпуса позволяют узнать, какие приемы и стратегии использовал переводчик для передачи слов, у которых нет эквивалентов в другом языке. «Системный Блокъ» рассказывает про Русско-китайский параллельный корпус.

Кратко: о чем статья?

Русско-китайский параллельный корпус — часть НКРЯ (Национального корпуса русского языка), масштабный проект, существующий с 2016 года, созданный учеными и студентами из российских и китайских университетов.

На данный момент корпус состоит из чуть менее 4,5 миллионов слов и более тысячи текстов самых разных жанров и стилей. Можно искать работы определенного автора, жанра, периода или конкретные произведения. Кроме того, важная особенность Русско-китайского параллельного корпуса — возможность выбрать вариант китайского языка.

Преимущество корпуса — коллекция переводов, через которые можно прослеживать межъязыковые отношения между исходной и переводной культурами. Например, можно искать варианты перевода безэквивалентной лексики или сравнивать употребление слов, обозначающих какие-либо концепты, которые в двух культурах не совпадают по смыслу. Так, воспользовавшись корпусом, можно узнать, что слово «ботвинья», обозначающее холодный суп на квасе, на китайский переводят как «гаспачо».

О поддерживаемых форматах ввода, создании параллельных корпусов и перспективах Русско-китайского параллельного корпуса, узнаете из полного текста статьи.

Время чтения: 12 минут.
Уникальные книжные памятники онлайн: от старинных карт Сибири до мохнатого «лесного чюда» 

«Книжные памятники» — один из самых амбициозных проектов по перенесению книжного культурного наследия на цифровые носители. «Системный Блокъ» рассказывает, как и зачем происходит оцифровка книг и других материалов, и советует, на какие из них стоит взглянуть в первую очередь.

Кратко: о чем статья?

Одна из основных целей оцифровки — сохранить оригинальные издания в лучшем состоянии, так как появляется возможность обращаться к электронным версиям. Кроме того, такой проект решает ещё одну важную задачу — популяризировать и демократизировать профессиональное знание, поэтому ресурс интересен не только специалистам, но и не связанным с областью людям.

Проект оцифровывает материалы, обладающие признаками памятника (учитывается, например, хронология и материальная ценность). У всех сканов документов есть библиографическое описание, которое позволяет сортировать памятники на сайте проекта по году появления, языку, месту издания, автору и другим параметрам.

Найти оцифрованные материалы можно на сайте проекта. Здесь собраны не только книги, но и старинная реклама, разговорники или русский лубок. А из поваренной книги XVIII века можно узнать «710 правил, по которым всяк может лучшим вкусом желаемыя кушанья приготовлять».

О том, для чего еще оцифровывают документы, зачем проводят экспертизу памятников, а также на какие еще материалы стоит обратить внимание, узнаете из полного текста статьи.

Время чтения: 8 минут.
«Открытые данные против мракобесия и пренебрежения реальностью»: интервью с Кириллом Маслинским

Кирилл Маслинский — цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора в Пушкинском доме, создатель Детского корпуса и Репозитория открытых данных по русской литературе и фольклору. «Системный Блокъ» узнал у Кирилла, что можно найти в тысячах оцифрованных детских книг, когда в детской литературе было допустимо употреблять слово «какашка», зачем филологам репозиторий открытых данных и может ли этот репозиторий как-то помочь в борьбе с мракобесием и войнами.

Кратко: о чем интервью?

Одна из миссий Лаборатории цифровых исследований литературы и фольклора — воплощать литературные корпуса, которые работают по тому же принципу, что и Национальный корпус русского языка. Например, ДетКорпус из 3000 детских книг и корпус нарративной прозы из 500 романов XIX века.

Ещё одна важная задача — работа над репозиторием открытых данных, литературы и фольклора. Сегодня профессиональный долг исследователя — опубликовать после исследования данные по современным стандартам. Лаборатория помогает это сделать: данные необходимо не только переработать и донести до публики, но и сделать доступными для количественных исследований. Например, в случае с датасетом о бытовании литературных текстов в ГУЛАГе было около восьми раундов правок с авторами, потому что таблица создавалась филологами как «человекочитаемые» данные, а не как машиночитаемые.

На базе этих корпусов и данных проводятся исследования. Одно из них — про репрезентацию телесности и гендерные аспекты в детских текстах. Выяснилось, например, что у мальчиков писатели очень сильно актуализируют затылки, а у девочек — щеки. Это как бы такие отдельно «женские» и «мужские» части тела в текстах детского корпуса. Другое исследование, которое проводил Кирилл, было посвящено контекстному употреблению слова «счастье» в ДетКорпусе.

О том, каким «счастье» в детских книгах было в сталинском СССР и как изменилось к концу хрущевского периода, что такое digital commons, с какими сложностями столкнулись создатели датасета с данными ГУЛАГа и почему сегодня он актуален как никогда — в полном тексте интервью.

Время чтения: 28 минут.
Как дети учатся читать и что нам говорит об этом наука?

Большинство детей начинает говорить и понимать устную речь в течение первых лет жизни, не прикладывая к этому никаких видимых усилий. Умение читать – другое дело. Чтение не «приходит само», ему нужно научить. Анастасия Лопухина рассказывает в новом материале своего блога, как дети учатся читать и что знают об этом современные когнитивные науки.

💼 Что и откуда мы знаем?

Многие исследования, на которых строятся выводы о процессах чтения, были проведены на материале английского языка, что неудивительно, но важно для работы с их данными. Научение чтению, особенно на ранних этапах, связано с тем, как устроена орфография языка. Орфография английского не похожа на орфографию многих других языков, поскольку она непрозрачна. Например, сочетание —ough имеет разные прочтения в английских словах tough – though – through. Первоклассники, которые учатся читать на языках с прозрачной орфографией могут обогнать сверстников, знакомящихся с чтением на английском, на первом этапе обучения.

👞 Шаг первый: «взлом» орфографического кода

Первый этап научения связан с формированием навыка устанавливать соответствия между буквами и звуками. Это позволяет узнать знакомое из устной речи слово в письменном виде. Когда орфографическая система хорошо освоена, дети способны читать как знакомые, так и незнакомые слова. На практике получается, что в самом начале необходимо систематическое обучение звуковому методу (phonics). 

👟 Шаг второй: эффективное чтение отдельных слов

Чтобы читающий не тратил много усилий на восприятие отдельных слов и сохранил ресурсы для понимания текста, ему нужно многократного прочитать слово в разных контекстах. Ещё больше опыта появляется с чтением слов из нескольких морфем (например, бодр-ость или dark-ness). Это позволяет создавать орфографические представления не только для каждого слова отдельно, но и для морфем, совпадающих у разных слов. На практике на этом этапе рекомендуется сфокусироваться на двух задачах: во-первых, помочь детям разобраться, из каких морфем состоит слово; во-вторых, сформировать мотивацию к самостоятельному чтению.

⛸️ Шаг третий: понимание текста

У детей навык понимания текста в большой степени базируется на уже имеющемся навыке понимания устной речи, но для развития понимания текста при чтении особенно важны три компонента: 
знание (орфографической системы, слов, жизненный опыт),
обработка информации, или использование знаний в процессе чтения,
общие когнитивные ресурсы, в частности, рабочая память. 

Чтобы развивать этот навык, исследователи рекомендуют проводить оценку понимания текста, чтобы вовремя выявлять трудности, обсуждать тексты с одноклассниками и учителем, помогать детям увеличивать их словарный запас и обучать детей делать логические выводы из прочитанного. 

О том, что такое ‘sight words’, как развить у ребенка внутреннюю мотивацию к чтению и какую роль в понимании текста играет знание грамматических конструкций и союзов — узнаете из полного текста статьи.
Цифровая реконструкция: как воссоздали портрет Черчилля для сериала «Корона»

Сегодня с помощью технологии цифровой реставрации можно восстановить утраченные картины, сохранившиеся, например, лишь на фотографиях плохого качества. «Системный Блокъ» рассказывает о деятельности мастерской из Мадрида и истории воссоздания портрета Черчилля.

Кратко: о чем статья?

Благодаря бесконтактной технологии 3D-оцифровки стало возможным создать цифровые копии музейных коллекций и исторических памятников. 3D-сканеры используют, например, для снятия с поверхности картин информации о нюансах — трещинах и тонких отметинах — что позволяет создавать более точные реплики.

Команда реставрации из Мадрида, работавшая над портретом Уинстона Черчилля, состоит из 50 человек: архитекторов, инженеров-электриков, механиков, программистов, дизайнеров, сварщиков и т. д. Для восстановления уничтоженного портрета эксперты обратились к наброскам полотна и некоторым фотографиям. Портретисты изучили материалы, которые мог использовать художник, а чтобы добиться точности реплики, реставраторы исследовали даже образцы материала брюк Черчилля и выяснили, в каком кармане он носил наручные часы.

Созданный файл распечатали на холсте с использованием гипса, чтобы передать ощущение текстуры сырого материала. Репродукция смогла отразить всю психологическую глубину и энергию впечатляющего портрета Черчилля.

О других проектах реставрации с помощью цифрового исследования, а также более подробно о воссоздании портрета Уинстона Черчилля, узнаете из полной версии статьи.

Время чтения: 7 минут.
Как провести стилометрический эксперимент с помощью stylo? Исследуем сценарии «Черного зеркала»

Хотите научиться устанавливать авторство текстов и следить за изменениями в стилистике сценариев к любимым сериалам? Читайте гайд, как самому провести стилометрический эксперимент — с помощью stylo, библиотеки языка R и самого популярного инструмента для стилометрии. 

Кратко: о чем статья?

Стилометрия — это количественное исследование стилистики, обычно включающее частотный анализ письменного текста. «Системный Блокъ» рассказывал о ней здесь и делал подборку материалов о стилометрических исследованиях. На практике её можно применять во многих областях: от судебной лингвистики и до установки авторства пьес Мольера.

Самый распространенный инструмент для стилометрических исследований — stylo, библиотека языка программирования R (но не пугайтесь заранее: программировать особо не придётся — у stylo вполне понятный интерфейс). Для работы с ним потребуется установить интерпретатор (программу, которая «переводит» код на языке программирования в команды, понятные машине) языка R и среду для написания кода, которая называется RStudio.

Следуя инструкции работы со stylo, мы исследовали сериал-антиутопию «Черное зеркало», взяв в открытом доступе расшифровки всех эпизодов на английском языке. Эксперимент показал, что первые два сезона для британского телеканала стилистически отличаются от последующих трёх — созданных для Нетфликса. Хотя сценарии для них написал один и тот же человек — создатель сериала, Чарли Брукер.

Чтобы узнать, какая серия «Черного зеркала» стилистически выбивается из общего ряда, получить более подробную инструкцию по работе со stylo на Windows, Mac и Linux и проводить собственные эксперименты — читайте полный текст статьи.

Время чтения: 16 минут.
Как работают языковые модели

Что такое языковая модель? Что общего между клавиатурой вашего телефона и GPT? Почему языковые модели умеют не только моделировать язык? Можно ли предсказать точность модели до её обучения? Отвечаем на все эти вопросы в нашем материале.

Кратко: о чём статья?

Мы сталкиваемся с работой языковой модели каждый раз, когда вводим что-то с помощью клавиатуры смартфона — языковая модель предлагает следующее слово или, говоря научно, моделирует наш язык. Большие нейросети вроде GPT, умеющие поддерживать диалог, писать код и многое другое тоже предсказывают наиболее вероятное слово на основе предыдущих. Главное отличие — они делает это намного точнее. 

Учиться моделировать язык можно разными способами. Существует два принципиально разных подхода: каузальное моделирование (Causal Language Modeling) и моделирование путем восстановления исходного текста по его «искаженной» версии (Masked Language Modeling и UL2). В первом подходе текст моделируется последовательно, слово за словом. К таким моделям, например, относятся все модели семейства GPT, а также модель PaLM. Во втором подходе исходный текст модифицируется: например, часть слов заменяется на специальное слово «[MASK]», которое затем должна отгадать модель. К таким моделям относится BERT.

Качество языковой модели зависит от её размера, размера обучающей выборки и количества вычислительных ресурсов, доступных для её обучения. Про размер модели и обучающую выборку мы рассказывали в наших материалах про машинное и глубинное обучение. А узнать подробнее о том, как получить оптимальную языковую модель, с какими задачами она обычно справляется и почему именно языковые модели стали главными претендентами на роль сильного искусственного интеллекта можно из полного текста статьи.

Время чтения: 12 минут.
Три взгляда на визуализации: сделать смысл вещей и явлений (не)видимым

Какой может быть «хорошая визуализация» и почему это не всегда нечто «красивое»? В новом тексте блога «Системного Блока» специалисты по Digital Humanities из ИТМО поговорили с культурологом Ольгой Давыдовой, медиафилософом Алиной Латыповой и дизайнером Трофимом Поповым об эстетических критериях и социальных аспектах визуального представления данных и роли визуализации в научном поиске.

🖼️ Три режима искусства

Философ Жак Рансьер утверждал, что существует три режима искусства: репрезентативный, эстетический и этический. Каждый из них задает правила того, как строятся художественные объекты и образы, какие чувства они должны вызывать. Репрезентативный режим помогает ответить на ставший мемом вопрос «Что хотел сказать автор?», а эстетический — на вопрос «Что я чувствую, когда я сталкиваюсь с тем или иным объектом? Что в этом объекте есть такого, что запускает во мне это переживание?»

🎨 Учёные и художники: соперничество и сотрудничество

На протяжении истории развития визуализации науки отношения между художниками и учёными менялись. Изначально художник-иллюстратор — помощник в научном познании, он изображает то, что ученый-натуралист ему предлагает. По мере того, как художники более активно включаются в процесс, они хотят быть полноправными авторами научных атласов, творцами научных объектов. В XIX веке роли жестко разграничиваются, вторая половина XX века вновь сближает художника и учёного, а современность предлагает их любопытный союз.

👁️ Видимое и невидимое

Когда мы делаем нечто видимым, мы имеем дело с репрезентацией (образ, картинка, изображение). Современная наука движется в сторону презентации (актуализации перформативного опыта). Сегодня учёные создают симуляции объектов, смотрят, как эти симуляции работают, и на основе того, что происходит, делают научные выводы. Познание превращается в перформативную практику, выходящую за границы созерцания.

✍🏼 Поэзия и визуализация

Отдельный случай — визуализация данных в гуманитарных науках, поскольку они зачастую многозначны, субъективны и противоречивы. Зато графический язык тоже имеет лексику — это стиль, мотив, текстура, цвет, материалы; и синтаксис — соотношения, композиция, порядок.

Подробнее о том, как можно выстроить взаимодействие между текстом и визуализацией, о том, как с представлением данных связана «Поэтика» Аристотеля и о проектах, в которых ученые и визуализаторы буквально вторгаются в свои объекты, — в полной версии статьи на сайте.
Анализ персонажей из песен «Короля и Шута» цифровыми методами: нужный, живой, веселый, пьяный, хороший

Наверняка вы когда-нибудь слышали о группе «Король и Шут» и сможете подхватить мотив, услышав «Разбежавшись, прыгну со скалы». К тому же, недавний релиз сериала о группе снова оживил интерес слушателя к творчеству самых известных панков России. «Системный Блокъ», вдохновившись сериалом, решил не только переслушать старые хиты, но и количественными методами изучить творчество группы.

Кратко: о чем статья?

Мы собрали корпус текстов песен «КиШ» за весь период их творчества до смерти Михаила Горшенева (1996-2013). Разбив корпус на отдельные токены (слова), мы и их лемматизировали (привели к начальной форме), отобрали самые смысловые части речи и посмотрели на частотность их употребления по всему корпусу. 

Выяснилось, что в центре творчества «КиШ» стоит человек, важную роль также играет дом, а многие события разворачиваются ночью в лесу. Среди глаголов лидируют хотеть (118 раз), любить (46 раз) и желать (45 раз), а герои группы обычно оказываются нужными, живыми, странными, хорошими, веселыми, пьяными. Интерес представляет не только мир персонажей-людей «КиШ», но и мир животных. Чаще всего в нем встречаются представители домашнего скота и лесные обитатели. Сказочные драконы, например, встречаются реже. 

Среди междометий почетное первое место заняло «Хо», которое, впрочем, не возвращалось в песни после 2000 года, а «Ах», оказавшееся вторым по популярности, стабильно использовалось на протяжении 10 лет.

Чтобы посмотреть, как выглядит мир песен «Короля и Шута» в разные периоды творчества, к какой тональности (негативной, позитивной или нейтральной) относит песни группы библиотека Dostoevsky и какой этап творчества «КиШ» оказался приближен к реальности, а какой — связан с возвышенными образами, переходите к полному тексту статьи. Там можно найти ещё больше классных визуализаций!

Время чтения: 8,5 минут.
Старинные открытки о культуре: «Иду на Шаляпина в оперу “Фауст”»

В каждой старинной почтовой открытке можно найти что-то новое, необычное и интересное, начиная с фотографии или рисунка на лицевой стороне, заканчивая текстом или почтовой маркой. Благодаря открыткам мы можем представить себя в роли зрителя на театральных постановках вековой давности, узнать, какие спектакли и оперные выступления были популярны в разное время. Делимся здесь двумя текстами открыток из новой подборки «Пишу тебе».

🎫 Надо дежурить

«Милая Юля! Ты хочешь, во что бы то ни стало, слушать Шаляпина? На так поставленный вопрос существует один ответ: узнай, где он, поезжай туда и там возьми билет. Я по крайней мере не слышала, чтоб он был в Питере. Но, если он здесь и поет в Мариинке, надо дежурить, других средств достать билет нет. Дежурят по вторн[икам] и субботам. Если он в частн[ом] театре, надо, проследив по газетным объявлениям начало продажи билетов, сейчас-же ехать и купить их. Это все, что я знаю. Привет от нас! {Застать нас можно по воскресеньям.}»

🎥 Для ценителя фильм

«Зная Вас как любителя и ценителя художественных фильм Дирекция кинотеатров «Титан»(пр. 25 октября, 47) и «Павильон»(ул. 3 июня, 12) приглашает Вас на премьеру последней новинки Парижа мировой картины [нрзб.] {Кин} с уч[астием] «Ивана Мозжухина»При предъявлении сего письма Вам вне очереди выдадут в кассе театра два билета».

Открытки об опере «Фауст», Китайском и Александровском театрах, а заодно и комментарии волонтеров проекта «Пишу тебе» с небольшой исторической справкой ищите в полной подборке на сайте.