Системный Блокъ
10.8K subscribers
241 photos
2 videos
1 file
876 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
加入频道
Где в России учат на цифрового гуманитария?

Куда можно зайти с дипломом филолога (историка, культуролога, мемолога...) — и выйти с навыками программирования, анализа и визуализации данных, веб-разработки, с опытом работы в междисциплинарной исследовательской команде? «Системный Блокъ» рассказывает про российские магистерские программы в области Digital Humanities. Приемная кампания в самом разгаре!

1. «Цифровые методы в гуманитарных науках», НИУ ВШЭ, Москва. 

Программа от DH-центра Вышки. Здесь учат программировать, анализировать и визуализировать данные, применять методы из компьютерной лингвистики/NLP к сложным гуманитарным объектам. Студенты осваивают популярные в современных Digital Humanities подходы вроде сетевого анализа, GIS-ов или стилометрии.

У магистратуры есть лингво-филологический уклон, но не жесткий — историки и культурологи себя тоже найдут. Не потеряются и программисты: Вышка хорошо умеет объединять гуманитариев и технарей в совместные команды. Проектная работа в режиме научных стартапов — одна из «фишек» магистратуры в Вышке. 
Группа в Vk

2. Анализ культурных данных и визуализация/ Data, Culture and Visualization, ИТМО, Санкт-Петербург

Англоязычная программа от лаборатории DH Lab в ИТМО. Здесь тоже есть и программирование, и анализ данных, и сети с GIS-ами, и, конечно, визуализация. Внутри магистратуры три трека на выбор: 
— трек для гуманитариев — с введением в работу с данными и практикой постановки задач IT-специалистам
— трек для аналитиков культуры (в нём поровну гуманитарных и технических навыков)
— трек по машинному обучению — для технарей, желающих применить себя в гуманитарных областях и прикоснуться к прекрасному. 

У команды, которая делает эту магистратуру, есть крутой проект по созданию цифровой культурной карты Санкт-Петербурга — там можно будет узнать, куда ходил обедать Чайковский и где гулял Пушкин. Еще один плюс программы — компьютерные спецы из ИТМО под боком.

3. «Гуманитарная информатика» и «Цифровые технологии в социогуманитарных практиках», ТГУ, Томск. 

Две «сестринские» программы от Лаборатории гуманитарных проблем информатики ТГУ. «Гуманитарная информатика» —более гуманитарно-философская, здесь есть курсы по философии искусственного интеллекта, цифровой культуре и т.п. Прикладные навыки тоже дают — учат разработке пользовательских интерфейсов, анализу данных, азам 3D-графики. Вторая программа, «Цифровые технологии в социогуманитарных практиках», рассчитана на технарей. В учебном плане много технических дисциплин: программирования, баз данных, и компьютерной графики, основной фокус — разработка и дизайн интерфейсов.
Группа в Vk

4. Прикладная информатика в области искусств и гуманитарных наук, СФУ, Красноярск.

Программу делает Кафедра информационных технологий в креативных и культурных индустриях СФУ — известные специалисты по музейной оцифровке и сохранению культурного наследия в электронной форме. Здесь учат техникам оцифровки и визуализации музейных экспонатов (например, могут научить 3D-моделированию) и прочему digital preservation. Есть курсы по математическому моделированию и проектированию информационных систем. 

5. Историческая информатика, МГУ им. Ломоносова, Москва

В отличие от Digital History, историческая информатика не считает себя частью Digital Humanities и не стремится к междисциплинарности. Вот и в этой магистратуре от Кафедры исторической информатики МГУ занимаются серьезной академической наукой, не выходя за рамки истории. Если вам интересно математическое моделирование исторических процессов или, к примеру, применение статистических методов в экономической истории — вам сюда. Не-историков берут, мы знаем успешные примеры. 
8 главных прорывов в нейросетевом NLP

Как компьютерная лингвистика подсела на нейронные сети и диплернинг, какие подходы сегодня в тренде и почему они так хороши? 8 важнейших достижений, около 15 лет плодотворной работы ученых:

2001 — Нейронные языковые модели

Тренировочная площадка для применения RNN. Многие недавние достижения в области обработки естественного языка сводятся к одному из видов языкового моделирования.

2008 — Многозадачное обучение

Совместное использование одних и тех же векторных представлений слов позволяет моделям взаимодействовать и обмениваться некоторыми «базовыми» представлениями об элементах текстов.

2013 — Word embeddings (векторное представление слов)

Word2vec модели позволяют провести массовое обучение векторных представлений слов и определить отношения и смыслы, стоящие за этими словами. (и даже за пределами уровня слова)

2013 — Нейронные сети для обработки естественного языка

Рекуррентные, сверточные и рекурсивные нейронные сети как три разных продуктивных способа работы с текстом.

2014 — Модели sequence-to-sequence (seq2seq)

Преобразование одной последовательности в другую с использованием нейронной сети. Благодаря своей гибкости, в настоящее время эта структура является ключевой для решения задач генерации естественного языка.

2015 — Внимание

Внимание позволило моделям нейронного машинного перевода превзойти классические системы перевода, основанные на переводе фраз.

2015 — Нейронные сети с ассоциативной памятью

Модели с ассоциативной памятью применяются в решении задач, для которых полезно хранить информацию в течение длительного времени, например, в языковом моделировании или чтении с пониманием прочитанного.

2018 — Предварительно обученные языковые модели

Предварительно обученные языковые модели доказали возможность обучения на очень ограниченном количестве данных. Они особенно полезны при работе с малоресурсными языками.

https://sysblok.ru/nlp/8-glavnyh-proryvov-v-nejrosetevom-nlp/
Translate-баттл: могут ли онлайн-переводчики передавать стиль текста?

Когда мы получаем онлайн-перевод нужного нам текста, то сразу можем сказать, хороший он или плохой. Но экспертам и разработчикам онлайн-сервисов машинного перевода нужны более четкие критерии оценки, так они смогут увидеть, в каких аспектах тот или иной сервис «слабоват» и что можно сделать, чтобы его улучшить.

В современном переводоведении машинный перевод можно оценить ручным и автоматическим способами. Ручная шкала оценивания содержит от пяти до одного баллов:

1 балл - если грамматика и стиль предложения не требуют постредактирования.
5 баллов - если в тексте большое количество грамматических, лексических и стилистических ошибок, а смысл предложения с трудом понимается даже после внимательного изучения.

Метрики автоматической оценки сейчас тоже достаточно популярны, однако их существенный недостаток заключается в том, что при такой оценке не ставится задача понимания семантики и стилистики текста, а это может привести к весьма неточному конечному результату.

О результатах сравнительного анализа переводов Яндекс Переводчика, Google Translate и других онлайн-сервисов в нашей полной статье:

https://sysblok.ru/nlp/translate-battl-mogut-li-onlajn-perevodchiki-peredavat-stil-teksta/
​Художники дружат: почему знаменитости знамениты

В 2012 году в Музее Современного Искусства MoMA в Нью-Йорке прошла выставка, посвященная зарождению абстракции. Кураторы всячески подчеркивали, что художники, представленные в МоМА, оказывали друг на друга сильное влияние, а в первом зале находилась схема, изображающая отношения художников в зависимости от степени их взаимодействия.

На куратора выставки во многом повлиял курс лекций Пола Ингрэма, профессора Колумбийской школы бизнеса и старшего научного сотрудника института Chazen. Его курс был посвящен использованию кураторами своих профессиональных связей для достижения успеха.Сам же Ингрэм использовали результаты, полученные на выставке, для изучения роли, которую творчество и социальные связи сыграли для художников в зависимости от уровня их известности.

Ингрэм, вместе с коллегой Митали Банерджи, обратились к базе данных Google, записали количество упоминаний каждого художника между 1910 и 1925 годами, проанализировали их социальные круги и приняли во внимание информацию об их национальности, поле, возрасте и месте жительства, а также о средствах массовой информации, которые они использовали, и художественных школах, к которым принадлежали. А чтобы определить оригинальность работ художников, использовалось машинное обучение и учитывалось мнение четырех историков искусств.

В то время как прошлые исследования полагали, что существует связь между креативностью и популярностью, Ингрэм и Банерджи, напротив, обнаружили, что такая корреляция отсутствует. Обнаружилось, что художники с большей и более разнообразной сетью знакомых вероятнее будут известны, независимо от оригинальности их работ. В частности, самым большим залогом славы для художника оказывается сеть его контактов из других стран.

Что же касается показателей креативности, они обнаружили, что ни оценки, полученные с помощью машинного обучения, ни экспертные мнения искусствоведов не были достаточными показателями популярности художника. А о том, как анализ данных предсказывает успех художника мы рассказывали тут.

Михаил Совин
​Cибирские пожары из космоса

Лесные пожары в Сибири - одна из самых обсуждаемых проблем последнего времени грозящая серьезными экологическими последствиями. Cреди способов мониторинга пожаров есть и космическая съемка. В 1999 году NASA по программе MODIS запустила спутник Terra, предназначенный для мелкомасштабного (то есть покрывающего большие площади в низком разрешении) мониторинга земной поверхности, и уже в течении 20 лет съемка с этого спутника используется, в том числе, и для мониторинга пожаров.

Это возможно при помощи данных с датчика VIIRS, позволяющего снимать Землю в инфракрасном диапазоне, особенно чувствительном к температурным аномалиям. Вспомните тепловизоры, которые так же улавливают инфракрасное излучение объектов и позволяют наблюдать разницу в их температуре — датчик VIIRS и является таким тепловизором для всей планеты.

На основе данных со спутника было создано несколько сервисов, позволяющих отслеживать аномалии температуры в почти реальном времени — например, сервис «Карта пожаров» компании СКАНЭКС и «Пожары FIRMS» - дополнительный набор данных со спутников NASA

https://sysblok.ru/urban/cibirskie-pozhary-iz-kosmosa/
Данные нас связали: где и как применяют статью 20.2 КоАП РФ

«Системный Блокъ» открывает серию материалов по анализу применения статьи 20.2 КоАП — той самой, которую сегодня массово используют против задержанных на митингах и шествиях. В первом посте рассказываем о том, какие данные по 20.2 собрал правозащитный проект ОВД-Инфо и как мы нашли в этих данных два нестандартных случая применения статьи.

27 июля, 3 августа и 10 августа в Москве прошли массовые акции против ограничения допуска кандидатов на выборы в Мосгордуму. По данным ОВД-Инфо, суммарно на трех акциях полиция задержала более 2600 человек (некоторых — повторно). Это далеко не первые митинги в России, которые завершились массовыми задержаниями участников. Также в автозаках оказалось немало случайных прохожих, неудачно вышедших из метро или на пробежку.

За задержаниями следуют административные дела по статье 20.2 КоАП — с недавних пор это одно из главных средств борьбы с уличной активностью граждан. Оправдаться по таким делам достаточно сложно: за 2018 год по стране было обжаловано всего 301 дело — меньше 7 % от общего числа.

Откуда данные?

Недавно ОВД-Инфо опубликовало датасет по применению статьи 20.2 за 15 лет (с начала 2004 по конец 2018 года). Датасет сопровождается тепловой картой, которая позволяет увидеть динамику и географию митингующего населения. Статистика по статье 20.2 с разбиением на регионы была получена ОВД-Инфо по запросу в Судебном департаменте при Верховном суде РФ.

Когда регионы обгоняют Москву

По ряду абсолютных показателей за 2018 год (сколько всего поступило дел, сколько из них рассмотрено, общее число осужденных и др.) Москва и Санкт-Петербург лидируют с большим отрывом. Но если посмотреть относительные цифры — количество дел на 100 тысяч жителей региона, то картина меняется на глазах.

На фоне других ярко-красной точкой выделяется Кабардино-Балкария. Тут в 2018 году на 100 тысяч населения было составлено больше 17 дел, это максимальный показатель по стране. Что же там случилось?

Конный поход под суд

Для многих публичные волнения на Кавказе в 2018 году ассоциируются с переделом границ «где-то в районе Чечни». И действительно, конфликт вокруг уточнения чечено-ингушской границы сопровождался задержаниями. Но именно в Кабардино-Балкарии произошел совершенно уникальный прецедент: значительная часть митингующих по сути не митинговала! Это становится понятным, если изучить сводки региональных СМИ и открытые данные ГАС «Правосудие».

Поводом к задержанию стал конный поход в честь 310-летия Канжальской битвы. Формально суды наказывали участников за блокировку дорог. Суть же проблемы в том, что факт Канжальской битвы и ее значимость по-разному оценивается кабардинцами и балкарцами. Это и стало предметом конфликта. И здесь уже подключились административные рычаги воздействия на национальные интересы и толкование истории народов.

Баптисты на Камчатке тоже «митингуют»

Другой пример — Камчатский край. Тут в 2018 году было чуть больше 9 дел на 100 тысяч населения, что, кстати, тоже опережает Москву. На Камчатке статья 20.2 стала средством борьбы с баптистами. Они конечно не выдвигали политических требований, а якобы вели публичную проповедь, раздавая листовки прохожим. Получается, что с точки зрения закона не все листовки «одинаково полезны». Например, вряд ли кому-то придет в голову задерживать двух студентов, раздающих флаеры на концерт, а потом судить их по 20.2 как «нарушителей порядка проведения массового мероприятия».

За цифрами всегда стоят люди

Данные хорошо, а их анализ — еще лучше. Здорово видеть аналитику и данные, представленные ОВД-Инфо, но нам хочется большего — видеть за цифрами людей и настоящие причины их задержаний. План максимум – понять, каким инструментом становится сегодня состав 20.2 КоАП и не превращается ли он в универсальный «швейцарский ножик», которым хоть колбасу нарезай, хоть вино открывай (т.е. хоть баптистов прижимай, хоть межнациональные конфликты модерируй, хоть гражданских активистов запугивай).
Машины, корабли, посевы: что можно посчитать на снимках с орбиты?

Данные дистанционного зондирования Земли (ДЗЗ) или космические снимки — именно так называется то, что мы видим каждый раз, когда переключаемся в режим «Спутник» в Яндекс.Картах или Google Maps. Дешифрирование космических снимков и данных ДЗЗ начало развиваться с того самого момента, когда из космоса была сделана первая фотография Земли, но именно с появлением машинного обучения и нейросетей, распознавание объектов во многом удалось автоматизировать.

Теперь стало чрезвычайно легко посчитать, например, машины на парковках торговых центров, чтобы оценить оборот и загруженность моллов в определенные часы. Также алгоритмы распознавания неплохо работают для кораблей — можно осуществлять мониторинг объемов и путей морских перевозок, незаконного вылова рыбы, работы верфей. Такие технологии чрезвычайно важны и для гуманитарных организаций — для более точных оценок численности населения в тех или иных районах, транспортной доступности, последствий стихийных бедствий или катастроф.

https://sysblok.ru/urban/sputnik-v-nebe-nejroset-na-zemle/
​​Подборка статей Блока по цифровой филологии

Уже больше года «Системный Блокъ» рассказывает о технологической революции в гуманитарных науках. Из этих статей вы узнаете, как во вселенную слов и смыслов приходит IT, какое отношение имеют стихи Пушкина к Терминатору, кто громче всех кричит в «Идиоте» Достоевского, а также из чего сделаны песни «ГрОба» и других проектов Егора Летова.

📕 Что такое кросс-языковая морфология и зачем она нужна
В статье рассказывается, как технологии помогают изучать редкие языки и детально разобраться в сходствах и различиях экзотических диалектов.

🚀 Пушкин, терминатор и звездолет
Если по ночам вы не можете заснуть, потому что никак не вспоминается одна пушкинская цитата, советуем обратить внимание на статью о поисковике, работающему по принципу семантических векторов.

📔 Персональный склерозник: от альбома XVII века до цифровых тетрадей
Разбираемся в игре Google с текстом и как интернет стал нашей главной записной книжкой.

🎶 Жутко громко, запредельно тихо: звуки в романах
Каким образом создается звуковое пространство текста, и можно ли проанализировать музыку художественного произведения.

📝 Новый, мертвый, хороший: визуализация текстов «Гражданской Обороны»
Из каких слов и метафор состоят песни Егора Летова — кажется, все идет по плану.

💻 Зачем нужны гуманитарии в эпоху машинного обучения?
Из статьи вы узнаете, почему тандем физиков и лириков не только сохранился на фотографиях из Политехнического музея, но и стал жизненной необходимостью.
Нейросеть расшифровала древний язык

Ручная расшифровка древних надписей — процесс долгий и трудоёмкий. Например, знаменитое линейное письмо Б, при помощи которого писали на острове Крит в XV-XIII вв. до н.э., известно западным исследователям с конца XIX века. Однако на расшифровку и прочтение текстов ушло 67 лет — и это несмотря на то, что язык критских книжников был одной из архаичных форм древнегреческого языка, хорошо известного ученым.

В эпоху Big Data можно попытаться ускорить процесс расшифровки, поручив его искусственному интеллекту. Именно этому посвятила своё исследование команда из Массачусетского технологического института и исследовательского подразделения Google — Google Brain.

В 2010 году одна из соавторок исследования, Регина Барзилай, работала над программой для расшифровки древних надписей. Материалом исследования тогда послужил угаритский — мёртвый язык семитской группы, распространённый в Сирии примерно в то же время, что и линейное письмо Б на Крите. Угаритский известен среди специалистов по древним языкам тем, как быстро он был расшифрован: первые надписи открыли в 1929 году, а в 1931 ученые уже объявили о полной расшифровке.

Программа, созданная Региной Барзилай была основана на порождающей Байесовской модели и повторяла процессы, характерные для ручной расшифровки: сначала сопоставлялись родственные буквы в иврите и угаритском, затем — морфемы, в конце — когнаты, т.е. похожие друг на друга слова общего происхождения. Программа показала неплохие результаты: она верно сопоставляла 29 из 30 букв и 60% когнатов.

В новой программе Барзилай и ее коллеги попытались решить более сложную задачу и сопоставить разные виды письма: линейное письмо Б было силлабическим, а греческое письмо — консонантно-вокалическое. При этом ученые намеревались повысить точность работы алгоритма.

В основе программы — нейросеть типа sequence-to-sequence, т.е. и на входе, и на выходе есть некоторая последовательность элементов. Архитектура стандартная: сначала нейросеть-энкодер обрабатывает входные данные, преобразуя их в числа, а затем нейросеть-декодер генерирует ответ. Алгоритм, который исследователи назвали NeuroCipher, сопоставляет когнаты по знакам, причем его работа обусловлена набором закономерностей: к примеру, родственные знаки в когнатах должны идти в одинаковом порядке и иметь одинаковые контексты.

Алгоритм протестировали на трёх наборах когнатов: для угаритского и иврита, для линейного письма Б и греческого алфавита и контрольном наборе для поиска когнатов в родственных романских языках. Результаты получились значительно лучше по сравнению с исследованием 2010 года: NeuroCipher правильно сопоставил 65.9% угаритских слов их когнатами в иврите, 67.3% слов на линейном Б с когнатами, записанными греческим письмом, и 91.6% когнатов в романских языках.

Сейчас авторы исследования продолжают улучшать показатели NeuroCipher и учат алгоритм сопоставлять не только когнаты. А несколько научных изданий уже задумались, не станет ли эта нейросеть ключом к расшифровке языков, на которых пока не удалось прочитать ни одной надписи, главным образом, линейного письма А. Вряд ли расшифровать линейное письмо А удастся в ближайшее время, но исследование MIT и Google Brain — впечатляющий шаг в эту сторону.

Дарья Оверникова
Очень большой... датасет: как порноиндустрия подсела на анализ данных

Просмотр порно — это довольно интимный процесс, в детали которого мы обычно не посвящаем всех вокруг. Однако сегодня порносайты отслеживают каждое наше действие: они знают, что мы любим смотреть, на каких моментах ставим видео на паузу, а на какие моменты перематываем. За простой и легальный доступ к всевозможному контенту для взрослых приходится платить данными.

Например, MindGeek — холдинг, которому принадлежит множество порносайтов и порностудий, в том числе Pornhub. В холдинге работают более 1000 технических специалистов, многие из которых заняты сбором и интерпретацией пользовательских данных. А результаты анализа MindGeek использует для настройки таргетированной рекламы.

Таким образом, порнотьюбы зарабатывают деньги как и социальные сети типа ВКонтакте или Facebook. Более того, они не только продают рекламу, но и, опираясь на данные, создают контент с высоким ER (Engagement Rate — оценка вовлечения пользователей), чтобы пользователи проводили еще больше времени на сайте, а значит — генерировали еще больше данных.

Мы знаем, о чем ты мечтаешь

Недавнее исследование Нью-Йоркского университета показывает как скрупулезно MindGeek подходит к удовлетворению пользовательских вкусов: в сценарии для порновидео указана одежда актеров, её цвет и стиль, а жирным шрифтом выделены важные детали, например, «Девушка 1 и девушка 2 остаются в одежде во время секса, парень 3 раздет».

Видео на сайтах типа Pornhub часто длятся меньше 20 минут. Среднестатистический пользователь проводит на сайте около 10 минут и за это время он обычно переключается между несколькими видео. Это позволяет собрать огромное количество данных с каждого пользователя. При этом производство порнороликов обходится дешевле, чем, например, производство сериалов или фильмов на Netflix, поэтому MindGeek может быстро подстроиться к новым трендам. И тренды в порно меняются с той же скоростью, что и тренды в новостях.

Данные об этих трендах выкладываются на сайте Pornhub Insights. Его главный хит — Year in Review — определяет новостную секс-повестку как минимум на месяц после публикации отчета. Социальные сети и СМИ активно обсуждают странные фантазии и фетиши пользователей, сексуальные предпочтения миллениалов и приносят огромное количество трафика обратно на Pornhub.

Sex Tech

Порнокомпании постоянно берут на вооружение новые технологии, чтобы быть готовыми к будущим пользовательским запросам. Например, YouPorn использовал нейросети для предсказания самых популярных поисковых запросов в 2018 году — первое место пророчилось Т’чалле и Шури, брату и сестре из фильма «Черная пантера» (к слову о табуированных темах). Также сайт ввел поиск по Emoji, т.к. все больше пользователей смотрят порно на мобильных устройствах.

Порно всегда было областью, в которой быстро приживались новые технологии. Оно также способствовало их массовому распространению. Вот несколько ярких примеров: VHS, мгновенные сообщения, интернет-магазины, стриминг. Хотя порноиндустрия не создала эти инновации, она их популяризировала и помогла им развиться. Так, VR активнее всего используется игровой и порноиндустрией. Ведь новые технологии позволяют собрать еще больше данных.

Технологии, в свою очередь, помогают порноиндустрии выглядеть, как это ни парадоксально, более человечно. Современные IT-гиганты сегодня не могут запросто игнорировать социальные проблемы, начиная от гендерного равенства и заканчивая безопасностью данных. Если порнокомпания хочет стоять с ними в одном ряду, ей необходимо учитывать эти правила и уметь реагировать на общественные вопросы, которые и сейчас довольно часто возникают к индустрии порно.

Мария Федотова
Word2Vec: покажи мне свой контекст, и я скажу, кто ты

Технология Word2Vec работает с большим текстовым корпусом и присваивает каждому слову уникальный набор чисел — семантический вектор. Вся идея векторов основана на дистрибутивной гипотезе, по которой смысл слова заключается не в наборе его собственных звуков и букв, а в том, среди каких слов оно чаще всего встречается. То есть между элементами его возможных контекстов, отсюда и название — дистрибутивная гипотеза.

Но в любом большом корпусе количество уникальных слов часто переваливает за сотни тысяч, и рассчитывать семантические вектора для каждого из них совсем не просто. Решение для этой проблемы предложил ученый из Чехии Томаш Миколов. Он придумал две нейросетевые архитектуры: CBOW и Skip-Gram.

Skip-Gram тренирует и обучает нейросеть чтобы запомнить веса нейронов (которые в нашем случае как раз и станут семантическими векторами). Skip-Gram много раз заставляет нейросеть предсказать, какие слова вероятнее всего встретить рядом с «абажуром». Она много раз ошибется и смотрит на то, какие вектора должны были получиться. В конце концов методом проб и ошибок алгоритм понемногу корректирует изначальные случайные значения и подбирает те самые веса, на которые нужно умножать вектор абажура, чтобы получить вектора правильных слов. А потом приходит человек, забирает веса и говорит, что это — семантический вектор абажура.

https://sysblok.ru/knowhow/word2vec-pokazhi-mne-svoj-kontekst-i-ja-skazhu-kto-ty/
Йоханн-Маттис Лист — исторический лингвист и программист-самоучка, применяющий в своих исследованиях цифровые методы. В интервью Системному Блоку учёный рассказал:

— как количественные методы популяризировали генеалогические деревья в лингвистике и раскрывают секреты праязыков.
— как начать применять компьютерные методы в исследованиях, не имея технического образования.
— что продвинутые технологии не заберут работу у гуманитариев. Точно не в ближайшем будущем.
— что филолог и инженер могут работать вместе, но им нужно понять друг друга.
— что лингвистика и биология близки, но не сильно.
— что ученые многого не знают, и это нормально.
— как лингвистический программный пакет LingPy автоматически распознает родственные слова на разных языках.
— как ученый справляется с неудачами в работе с помощью... жонглирования.

https://sysblok.ru/interviews/obedinit-klassicheskih-filologov-i-specialistov-po-cifre/
​Что случилось с самыми унылыми стихотворениями XIX века

Элегия — ключевой поэтический жанр «‎золотого века» русской поэзии. Но что происходило с элегией за 20 лет ее развития (с 1815 по 1835)? Ответить на этот вопрос нам может помочь корпус из 390 элегий, напечатанных в журналах начала 19 века.

Первое и самое простое, что можно сделать с таким жанрово-единообразным корпусом, — посмотреть, какие слова отличают его от поэзии вообще. Для этого можно сравнить наиболее частотные слова в элегиях и в поэтическом подкорпусе НКРЯ. Сравнение показывает, что среди первых 40 частотных слов в обоих корпусах элегии отличают слова «милый», «небо», «слеза» и «мечта». Если смотреть на сочетания из двух слов (биграммы), то для элегий характерны: «последний раз», «милый друг», «вся радость», «юные годы», «слезы лить», «сладкий сон».

Рассматривая эволюцию жанра элегии, мы в первую очередь обращаем внимание на развитие и изменение содержания. Метод тематического моделирования позволяет проанализировать развитие отдельных тем через распределение слов в текстах корпуса. За основу берется количество появлений отдельного слова *** в каждом стихотворении (например, для элегии Пушкина «Поедем, я готов…»: «поехать»: 2, «я»: 4, «готовый»: 3 и т.д.), составляется таблица со всеми словами. Далее алгоритм анализирует, какие слова встречаются друг с другом в каждом тексте, и на основании общего распределения в корпусе вычленяет в текстах темы.

Для корпуса элегий была построена такая тематическая модель из 12 тем. Заметно, что в текстах конца 1810-х — начала 1820-х годов больше, чем в другие периоды встречаются историческая тема (11), ключевые слова: «слава», «страна», «меч», «родина», «сын», «герой», «враг», «бой» и тема «поэта и поэзии» (10), ключевые слова: «бог», «сердце», «певец», «лира», «слава», «муза».

Интересно, что начиная с середины 1820-х годов все большую долю в корпусе занимает «любовная» тема (5), и все чаще встречаются слова: «я», «ты», «любовь», «душа», «друг», «она», «любить».

Тоня Мартыненко
Сегодня 1 сентября📚 И хотя не всем завтра предстоит снова отправиться в школу, день знаний — отличный повод научиться чему-нибудь новому. «Системный Блокъ» подготовил для вас подборку образовательных статей о русском языке, шахматах и учителях — в общем, о том, с чем у нас с детства ассоциируются школьные годы.

Как аннотация текстов связана с шахматами?
Как благодаря знаменитой игре можно не только повторить ход гроссмейстера Е2-Е4, но и определить лингвистическую сложность текста?

Помедленнее, я записываю
Речь грузчиков, субтитры, русский язык в иностранном исполнении и другие жемчужины коллекции самых необычных корпусов.

Не стыдно и весело: чем хороши языковые боты
Робот — друг человека? Рассказываем, как живут голосовые помощники для изучения языков и можно ли с ними подружиться.

Пощады не будет: учителей меняют на роботов
В продолжение предыдущей статьи «Системный Блокъ» исследует обратную сторону медали: может ли робот не просто стать лучшим другом человека, но и оставить его без работы (спойлер: искусственный интеллект не стоит недооценивать).

Дефенестрация? Не, не слышал!
Как алгоритмы помогают определить словарный запас человека и какую неочевидную выгоду сулит написание кандидатской.
Накануне войны: что можно увидеть в сети родства монархов Европы 1914 года

Историк Михаил Щегольков проанализировал международную обстановку последнего мирного месяца перед Первой мировой войной, изучив родственные связи европейских монархов с помощью сетевого анализа.

Узлами сети европейских монархов стали 21 монарх и 6 претендентов на престол, а толщина ребер означает количество общих предков либо общих потомков у двух человек.

Сетевой метод дает интересные результаты: например, на построенном графе становятся видно, что практически вся Европа делится на католиков и протестантов. Нидерланды оказываются единственной страной, связанной только с нейтральными странами, а Норвегия, Дания и Греция так тесно взаимодействуют между собой, потому что ими правили родные братья.

https://sysblok.ru/history/nakanune-vojny-chto-mozhno-uvidet-v-seti-rodstva-monarhov-evropy-1914-goda/
Чему учат в современной началке, и как корпус из учебников русского языка для начальной школы может помочь ответить на этот вопрос?

Подавляющее большинство заданий в корпусе учебников 1-4 классов представлено в форме императива, т.е. повелительного наклонения (запиши, подумайте и т.д.) С огромным отрывом лидирует предложение прочитать, далее следуют несколько форм заданий на письмо: от списывания с образца до написания собственных примеров.

Затем идут задания на поиск и различные виды обработки информации: Порадуйтесь и вы тому, что вас окружает в природе; «Попутешествуй» по картине.

Интересно проследить, способны ли формулировки заданий отражать учебную программу, разный набор тем в зависимости от класса. График ниже показывает частоту трех глаголов — произнести, образовать и спрягать в инструкциях к упражнениям с 1 по 4 класс. "Произносить" задания чаще всего нужно в 1-2 классах. В третьем классе появляется необходимость образовывать новые слова и предложения. Понятие глагольных спряжений вводится лишь в четвертом классе, что тоже явно отражено на графике.

Интересно, что в серии учебников под ред. Нечаевой мы столкнулись с разными заданиями для мальчиков и девочек — находка для гендерных исследователей! Но если вернуться к вопросу, чему же учат в начальной школе на уроках русского языка, можем с уверенностью сказать, что ЧИТАТЬ, ПИСАТЬ И СПИСЫВАТЬ, а потом уже всему остальному.

Антонина Лапошина
VR в образовании: от Древнего Египта до высадки на Луну

Дополненная, виртуальная и смешанная реальность в образовании — давно не фантастика. С каждым годом AR, VR и XR завоевывают новые позиции в школах, университетах и музеях. «Системный Блокъ» перевел рассказ эксперта Стива Бембери о лучших образовательных VR-новинках прошлого года:

1.Number Hunt (Vive/Rift/WMR)
В формате шутера вы мчитесь вокруг арен, населенных антропоморфизированными числами, стреляя в числовые NPC из пистолета, который может выполнять четыре математические операции (сложение, деление, вычитание, умножение). Это очень веселый и необычный подход к математике.

2. Nanome (Vive / Rift/WMR)
Nanome предоставляет пользователю возможность выбрать огромное количество химических веществ для экспериментов. Нанотехнологии представлены так, как если бы ученик был человеком-муравьем.

3. Nefertari: Journey to Eternity (HTC Vive)
Приложение позволяет гулять по гробнице Нефертити, слушая первоклассные исторические комментарии. А интерактивные точки знакомят учеников с историей, культурой и конструированием гробниц.

4. Becoming Homeless (HTC Vive)
приложение Becoming Homeless (Стать бездомным). Это короткий, но мощный опыт, позволяющий вам встать на место кого-то, кто оказался на улице. По мере того, как ваше положение ухудшается, вы испытываете суровые реалии жизни бездомного от первого лица.

5. Hold The World (Rift/WMR)
Удивительный виртуальный музей. Выбрав объект, о котором вы хотели бы больше узнать, вы можете сфокусироваться на его частях или углубиться в историю. Невероятно и захватывающе в равной мере.

6. Google Tour Creator (Web)
Tour Creator — это веб-инструмент, позволяющий создавать интерактивные виртуальные туры с несколькими сценами. Это безусловно самый доступный инструмент для преподавателей, которые ищут способы интегрировать 360о туры в учебную программу.

7. Apollo 11 VR HD — (Vive/Rift/WMR)
Виртуальный полет на луну (переиздание приложения 2016 года) в более высоком разрешении и с новыми демонстрационными режимами.

8. Anne Frank House VR (Rift/Go/Gear)
Созданное при поддержке музея Анны Франк, приложение детально воссоздает Secret Annex — печально известное тайное убежище, где Анна Франк и её семья скрывались во время Второй Мировой войны.

9. The Kremer Collection VR Museum
Это виртуальная галерея содержит более 70 работ классиков старой школы, таких как Рембрандт, воссозданных в потрясающих деталях, позволяющих вам приблизиться к искусству как никогда раньше. Каждая сопровождается не только текстовым, но и аудио описанием.

10. HoloLab Champions (Vive/Rift)
Химическое приложение в котором ученики вступают в соревнование, где нужно завершить эксперимент быстро, но безопасно, чтобы стать чемпионом и разблокировать разные достижения.
Как власти в Гонконге используют технологии, чтобы найти протестующих, а протестующие — чтобы спрятаться от властей

В Гонконге не прекращаются протесты, которые начались в июне с мирных шествий против нового закона об экстрадиции. И полиция, и протестующие используют современные технологии, чтобы обойти соперника. Какие именно устройства и приложения участвуют в битве?

Протестующие

1. Лазеры

Чтобы скрыться от системы распознавания лиц, манифестанты пытались использовать лазерные указки, которыми засвечивали камеры. Однако ход оказался неэффективным: попасть в небольшие камеры наблюдения, которые к тому же высоко закреплены, весьма непросто. Так что лазеры часто направляют в глаза полицейским, которым, в отличие от бездушных железок, это навредить может.

2. Социальные сети

Для координирования движения участники протестов создают сообщества и анонимные чаты в Facebook и Telegram. В них они обсуждают места проведения акций, способы защиты от контрмер полиции, дальнейшие действия. Существуют даже группы, в которых участники обсуждают последующие встречи для сбора мусора и уборки после маршей.

3. Мессенджеры

Однако даже анонимные чаты не могут обеспечить безопасность участников. Так, Telegram предположил, что за DDOS-атаками на сервис стоит китайское правительство. Многие протестующие используют Air-drop как средство связи — чтобы быстро обмениваться информацией о местоположении полицейских нарядов и времени следующей встречи.

4. Никакого WeChat и банковских карт

Большинство протестующих очень внимательно относятся к электронным следам. Чтобы избежать поимки, они не используют банковские карты, электронные проездные в метро, многоразовые sim-карты. Только старые мобильники, только незаписывающие устройства.

Государство

1. Система опознавания лиц

Система опознавания лиц дает свои результаты. Как оказалось, медицинской маски и зонтика недостаточно, чтобы ее обмануть. Система отслеживает даже телодвижения и комплекцию.

2. Социальные сети

Китай подозревают в обрушении серверов Telegram. Кроме этого Twitter и Facebook провели внутренние расследования и выяснили, что власти Китая использовали некоторые аккаунты этих социальных сетей в своих интересах (фабрика троллей, made in China). Эти страницы обвиняли участников протестов в насилии и незаконном проведении акций.

Эвелина Григорьян
Тест Тьюринга для киберпоэтов

Тест Тьюринга был создан английским математиком и пионером компьютерных наук Аланом Тьюрингом. Основная задача теста — определить, может ли машина мыслить. Согласно теории учёного, если компьютер может в текстовом режиме вести беседу так, чтобы человек не догадался о природе своего собеседника, у машины есть интеллект.

В 2013 году Бенджамин Лэйрд и Оскар Шварц решили использовать идеи теста Тьюринга, чтобы выяснить, может ли компьютер писать стихи наравне с человеком.

Слова, фразы и конструкции, составляющие язык, — это строительный материал. Алгоритм может взять любой язык, использовать корпус стихотворений конкретного поэта или, может быть, целого стихотворного жанра и затем научиться писать собственные стихи.

Участникам эксперимента «Bot or not» предлагалось выбрать из двух стихотворений «человеческое». Согласно теории Тьюринга, компьютер проходит тест на интеллект, если ему удаётся обмануть человека в 30% случаев. В базе данных программы Бенджамина Лэйрда и Оскара Шварца есть «компьютерные» стихотворения, убедившие 65% читателей, что они были написаны людьми.

https://sysblok.ru/philology/test-tjuringa-dlja-kiberpojetov/
Знакомый почерк: цифровые технологии для юристов

Любой текст, написанный от руки, имеет много особенностей: форма, размер и расположение букв, сила, с которой ручка отпечаталась на бумаге. Эти и другие признаки выделяют юристы, когда проводят почерковедческую экспертизу. Главная задача экспертизы — установление автора рукописи. Можно ли использовать для этого цифровые технологии?

Точный подход к анализу почерка — количественный или графометрический основан на выделении количественных признаков и их статистическом анализе. Для этого применяются компьютерные технологии. Одна из них — инструмент GRAPHJ. Он работает с отсканированными документами и может использоваться на разных этапах экспертизы.

Как работает GRAPHJ?

GRAPHJ распознает строки текста. По умолчанию, текстовая строка делится на три области — нижнюю, среднюю и верхнюю. Сначала в документе находятся все средние области.

Отсканированная картинка разбивается на пиксели и бинаризируется (переводится в черно-белый вариант): все пиксели темнее определенной границы получают значение 0 (черный), а остальные — 1 (белый). Картинка делится на h линий (h — высота картинки), и из нее создается гистограмма, каждая точка которой — число нулей в определенной линии.

Границы слов определяются по разрывам на гистограмме. Затем распознаются отдельные символы и подсчитываются их вхождения. Пользователь сам выделяет в тексте образец символа, а программа ищет совпадения.

Биометрия и технологии

Еще один точный подход — биометрический, основанный на измерении биологических и поведенческих характеристик человека. Перед экспертизой почерка открылись новые горизонты с появлением цифровой биометрической подписи. Существуют различные приложения для ее создания, мы расскажем про GrafoCerta (итал. «достоверная подпись») — разработку итальянской компании Namirial.

У цифровых подписей много преимуществ: они не требуют печати бумаги, могут быть использованы повторно. Для их создания даже не обязательно иметь специальный планшет: у GrafoCerta есть мобильные приложения для Windows, Android и IOS! Гарантируется безопасность и юридическая сила цифровой подписи: приложение фиксирует биометрические характеристики человека.

Преимущество приложения в том, что оно фиксирует скорость письма и силу давления на ручку — важнейшие признаки, обусловенные моторной памятью человека, которые рука «помнит» сама.

Дарья Балуева
Оцифровать Французскую революцию: Парламентские архивы

Заниматься историей Французской революции сегодня значительно проще, чем тридцать лет назад. Документы, которые некогда были доступны лишь в читальном зале Национальных архивов, становятся общественным достоянием.

Один из самых значительных примеров этого процесса — оцифровка Парламентских архивов (Archives parlementaires).

Первые восемьдесят два тома были оцифрованы в рамках сотрудничества Университетских библиотек Стэнфорда с Национальной библиотекой Франции. А в 2014 году в Париже Институт Французской революции и Библиотека Сорбонны начали превращать текст архивов в полноценную базу данных.

Теперь к этому огромному массиву текста (80 000 страниц в оригинальном издании) стало возможно, например, применять методы вычислительной лингвистики.

https://sysblok.ru/history/ocifrovat-francuzskuju-revoljuciju-parlamentskie-arhivy/