Системный Блокъ
10.8K subscribers
241 photos
2 videos
1 file
873 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
加入频道
​​Определяем дату написания картины онлайн
#knowhow #research

Когда цифровизация стала глобальным трендом, в открытом доступе появились тематические датасеты, которые состоят из десятков тысяч картин различных авторов и эпох. Работая с такими датасетами, можно генерировать дополнительные метаданные — в нашем случаем это возраст изображений, тем самым автоматизируя работу искусствоведов.

Возможность определять возраст или стиль изображений полезна не только искусствоведам и коллекционерам. С помощью этого инструмента можно изучать тенденции современного искусства и выявлять закономерности, которые позволяют понять, к стилю какой из эпох более всего склонен автор.

Задача и стратегии ее решения

Ключевая фигура в решении задачи — сверточная нейронная сеть для выделения признаков на изображениях. Рассматривались архитектуры ResNet18 и VGG-19, однако последняя дала лучшие результаты.

Если не углубляться в теоретические основы глубокого обучения, то сверточные сети можно описать как алгоритм последовательного сжатия изображений, который способен выделять их ключевые особенности на разных уровнях абстракции (подробнее можно почитать на хабре).

Примененив сверточную сеть с обрезанными полносвязными слоями, мы вычисляем матрицу Грама, а также применяем классификацию или регрессию. В нашем случае в роли модели классификатора выступает SVM.

Матрица Грама является специальным представлением изображения — это матрица попарных скалярных произведения численного значения пикселей. Её использование позволяет конвертировать преобразованную сверточной сетью картину в формат, удобный для определения стиля. Матрица Грама сглаживает пространственную структуру, позволяя получить больше информации о текстуре изображения, чем о присутствующих на ней конкретных объектах.

В итоге оказалось, что наилучший MSE даёт VGG-19, а лучшее значение F1-меры достигается той же сетью с батч-нормализацией. Использование F1 в данной задаче обусловлено отсутствием в выбранном датасете баланса классов, каждый из которых представлял собой временной промежуток в 50 лет. Применение этой метрики позволяет более объективно оценить качество моделей.

Результаты и их интерпретация

Использование матрицы Грама позволило почти в два раза улучшить качество моделей на представленном датасете. Для многих классов ошибочных классификаций совсем немного.

Однако использование информации о стиле для определения временного отрезка гарантированно работает только для эпохи премодерна, которой характерно последовательное совершенствование техник изобразительного искусства.

Наш небольшой эксперимент показал, что задача определения возраста картины может быть решена посредством использования методов искусственного интеллекта. Следующий этап — увеличение количества данных, усложнение модели, масштабирование задачи на XX и XXI века, а также увеличение количества временных промежутков.

Код проекта можно найти на github.

Модель работает онлайн — протестировать можно здесь.

https://sysblok.ru/knowhow/opredeljaem-datu-napisanija-kartiny-onlajn-bez-registracii-i-sms/

Дарья Петрова, Вадим Порватов, Валерий Покровский
​​Посты о смерти: оценить нельзя игнорировать
#digitalmemory #society

Все видели мемы «Проспал дистанционку» с траурной свечкой, «Здоровья погибшим» и «Press F to pay respect»? Кому-то они покажутся циничными, но пользователи могут использовать черный юмор из-за фрустрации и непонимания, как реагировать на трагические новости.

Лайк публикациям о смерти выражает скорбь или неуважение? Нужно ли делиться горем с подписчиками? Когда уместны траурные посты? Эксперт по цифровому этикету Ольга Лукинова отмечает, что эти вопросы вызывают бурные дискуссии, потому что негласные правила выражения негативных эмоций и реагирования на печальные события еще не успели сформироваться.

Исследователь Анна Вагнер выделяет три основные проблемы digital death в сетевом этикете:
— нормы выражения скорби в соцсетях,
— содержание и форма траурных постов,
— реакция и взаимодействие с такими публикациями.

Проблема откровенности

Частное выражение скорби в связи с утратой близкого человека постепенно становится обыденным явлением. Социальные сети предоставляют возможность сделать из аккаунта умершего памятную страницу (подробнее об идее digital afterlife).

Однако, истории в Instagram блогера Екатерины Диденко, в которых она подробно освещала обстоятельства смерти своего мужа и двоих друзей от испарений сухого льда на вечеринке в честь дня рождения, вызвали волну гнева. Ольга Лукинова выделяет две основные причины недовольства в подобных случаях:
— излишняя откровенность и неуместное вовлечение аудитории в переживание негативного опыта,
— подозрения в циничном пиаре и желании вызвать хайп.

Трагедия принесла Диденко 600 тыс. новых подписчиков. Тем не менее, стоит обратить внимание на этичность не только действий блогера, но и реакции зрителей. Поскольку нет универсальных правил скорби в сети, Екатерина не могла их нарушить, а значит, негативные комментарии попросту бессмысленны. Более того, пользователи, которые их оставляют, сами проявляют неуважение к чужому горю и личным границам.

Большой палец решает

В цифровой среде большой палец вверх или вниз — простейший способ выразить свое отношение к чему-либо. Правда, во многих соцсетях дизлайк отсутствует, и пользователь делает выбор, ставить ли палец вверх или проигнорировать сообщение.

Слишком простые реакции на сообщения о трагических событиях вызывают много вопросов. Означает ли лайк под некрологом сочувствие или радость уходу из жизни этого человека? Означает ли дизлайк грусть из-за смерти или неприязнь к усопшему? Ольга Лукинова в своем телеграм-канале «Цифровой этикет» провела опрос, который показал: 78% респондентов считают палец вверх или сердечко позитивной реакцией, неуместной в постах о смерти.

Альтернативы лайку

Facebook расширил выбор реакций на пост, добавив эмоции грусти, злости, удивления, смеха в качестве альтернативы лайку. Разные реакции есть и в историях в Instagram, но публикации в профиле по-прежнему можно оценить только символом сердечка.

Иногда пользователи под скорбными постами пишут в комментариях краткое «R.I.P.», что означает «покойся с миром», или просто букву F — эта реакция стала своеобразным мемом после выхода в 2014 году игры «Call of Duty: Advanced Warfare», где фигурировала фраза «Press F to pay respects» («Нажмите F, чтобы отдать дань уважения»).

Отношение к лаконичным реакциям разнится. Одни считают, что это удобно и что даже краткая поддержка имеет значение, другие — что плачущего смайлика недостаточно, поэтому следует либо промолчать, либо написать содержательный и осмысленный комментарий.

Важно помнить, что траурный этикет в сети пока не сформировался, а потому каждый действует так, как считает нужным. Три принципа, которых следует придерживаться всем уже сейчас, — не нарушать чьих-либо личных границ в цифровой среде, не осуждать чужие способы переживания утраты, уважать умерших и пострадавших людей, о которых идет речь.

Больше подробностей и примеров — в нашей статье: https://sysblok.ru/digitalmemory/posty-o-smerti-ocenit-nelzja-ignorirovat/

Ирина Родионова
​​Кто такой педель и как получить матпомощь в XIV веке: тест по cредневековым университетам
#test #history

Один из студентов средневекового Парижского университета в письме своему другу писал: «Ты хотел получше узнать о жизни в Париже? Будет тебе известно, что место это просто замечательное: всегда можно добыть достаточно вина по небольшой цене, в городе великое множество учителей, готовых удовлетворить тягу к знаниям приехавших студентов, да и принципе тут есть все, что нужно для тех, кто хочет учиться, не забывая о радостях жизни».

И хотя жизнь студента в XIII—XV вв. часто была совсем не такой радужной, тысячи молодых людей стремились учиться в знаменитых университетах Европы. Но что же ждало новоиспеченного студента? Что из себя представлял тот университет, куда он попал?

Проверьте ваши знания об университетской жизни в Средневековье: https://sysblok.ru/test/srednevekovye_universitety/
​​ЕГЭ для нейросетей: какую языковую модель можно назвать «умной»?
#nlp #linguistics

С развитием автоматической обработки языка (NLP) языковые модели решают все более сложные задачи. Нейросеть должна научиться понимать запрос пользователя и выдавать на него правильный и адекватный ответ. Компания OpenAi предложила решение: формулировать любую задачу ИИ как продолжение текста, введенного пользователем. Так можно делать и машинные переводчики, и вопросно-ответные системы, и вообще почти что угодно в NLP.

В языковых моделях слова представлены в виде векторов-эмбеддингов. И если на начальном этапе развития NLP эмбеддинги хранили информацию только о частотных контекстах употребления слов, то сейчас модели создают векторные представления слов с синтаксической и морфологической информацией. Ученые пытаются понять природу эмбеддингов, чтобы разобраться, почему одни модели успешны, а другие нет.

Как устроен тест

SentEval — универсальный набор тестов для оценки качества моделей, разработанный в 2018 году в Facebook. Чтобы пройти «экзамен», нужно ответить на 10 вопросов из 3 концептуальных групп: внешняя, синтаксическая и семантическая информация.
— Задания из первой группы содержат простые вопросы, например, посчитать количество слов в предложении.
— Синтаксические вопросы уже сложнее: языковой модели нужно рассчитать глубину синтаксического древа или перечислить верхнеуровневые составляющие.
— Третья часть использует синтаксические свойства предложения. Модель должна определить время глагола, число подлежащего или ответить, в каких предложениях было заменено слово.

Будущее «экзамена»

Тестирование моделей и изучение их неявных свойств постепенно становится отдельной областью науки. При изучении языковой модели BERT ученые выяснили, что внутри модели можно найти разные уровни «освоения» языка. Нижние слои специализируются на внешней информации, средние уровни лучше справляются с вопросами синтаксической группы, а верхние слои сохраняют информацию для специального задания, на которое обучается модель.

Однако пока эти выводы разделяют не все исследователи — внутреннее устройство нейросетей во многом остается «черным ящиком».

https://sysblok.ru/linguistics/egje-dlja-nejrosetej-kak-testirujut-usvoenie-jazyka-mashinami/

Анна Аксёнова
​​По словам их узнаете их: как вычисляли автора «Беовульфа»
#philology #nlp

Древнеанглийская поэма «Беовульф» — цельная работа одного автора или комбинация нескольких текстов? Чтобы ответить на этот вопрос, ученые проанализировали древнеанглийскую литературу количественными методами компьютерной лингвистики.

I. Что говорят количественные методы?

Анализ пауз

Сначала проанализировали смысловые паузы. Исследователи подсчитали отношение внутристрочных и смысловых пауз в обеих частях «Беовульфа» Получилось, что отношения для первой и второй части находятся в пределах 4% друг от друга. Чтобы подтвердить результаты, их также сравнили с другими древнеанглийскими поэмами и древнегреческим эпосом.

Анализ метра

Затем проанализировали метр «Беовульфа». Для этого использовалась классификация, предложенная Сиверсом, который делит полустроки на пять основных звуковых паттернов. Были исследованы как общая частота пяти типов, так и их последовательность в «Беовульфе». Оказалось, что уровень использования каждого типа остается линейным по всему тексту, без заметного сдвига в районе строки 2300 (конец первой части поэмы).

Анализ сложных существительных

Наконец, рассмотрели распределение сложных (составных) существительных по тексту «Беовульфа» и по всему корпусу древнеанглйской поэзии. Сложные существительные — такие как hran-rád «море» (букв. «дорога китов») и bán-hús «тело» (букв. «дом костей») — типичны для древнеанглийской поэзии.

Для определения авторства особенно важно подсчитать использование гапаксов — слов, встретившееся в некотором корпусе текстов только один раз. Доля гапаксов в текстах разных авторов сильно разнится, а в «Беовульфе» линейна по всему тексту, без изменений в области строки 2300. Небольшая нелинейность около строки 1500 соответствует битве Беовульфа с матерью Гренделя. Это место в поэме изобилует сложными словами.

II. Критика исследования

Воспроизводимость — важное свойство научных экспериментов. Группа ученых попыталась воспроизвести это исследование и пришла к выводу, что все четыре главных характеристики, которые были использованы для «количественного профилирования» древнеанглийской поэзии, либо имеют методологически сомнительные параметры (что ведет к неверной интерпретации результатов атрибуции текстов), либо неоптимальное воплощение, либо и то, и другое.

Критики также нашли серьезные ошибки в коде и никак не объясненные пропуски в данных, а одну часть результатов не получилось воспроизвести. Недостатки методологии ставят под вопрос главные выводы исследования.

https://sysblok.ru/philology/po-slovam-ih-uznaete-ih-kak-vychisljali-avtora-beovulfa/

Ксения Кашлева
​​Почему искусственный интеллект врет и как его от этого отучить
Седьмой выпуск подкаста Неопознанный Искусственный Интеллект — с Давидом Дале
#podcasts

Давид закончил экономфак, строил модели кредитного скоринга в Альфа-банке, делал проекты в Data Factory «Яндекса», а потом работал над «Алисой». Теперь Давид — фриланс-разработчик чатботов, преподаватель Y-DATA (филиал ШАД Яндекса в Тель-Авиве) и научный сотрудник «Сколтеха».

В этом выпуске

01:24 — Путь датасайнтиста из корпорации во фриланс
06:34 — Как устроен мир разработки чат-ботов и персональных ассистентов
09:06 — Что такое «навыки» чатботов и как их программируют?
11:33 — Можно ли придумать для персональных ассистентов единый протокол
16:39 — Почему всех впечатляет нейросеть GPT-3
22:43 — Как работает GPT-3 и что позволяет ей порождать связный текст
28:00 — Как тестировать интеллектуальность нейросетей
32:54 — Где нужны гибридные подходы к построению интеллектуальных систем
44:34 — Зачем делать студию разработки персональных ассистентов
46:30 — Как устроено преподавание в Y-DATA

Хайлайты выпуска

1. Меньше обучения

Разработчики моделей машинного обучения стремятся урезать этап обучения, иногда почти до нуля. Языковая модель BERT перевернула область NLP, потому что умеет дообучаться с относительно небольшого количества примеров за счет тех знаний, которые она уже накопила. Происходит few-shot learning, когда с нескольких примеров модель может подхватить задачу.

Создатели моделей GPT ещё амбициозней — они хотят сделать zero-shot learning. Модель ни разу не пыталась решить конкретную задачу в процессе обучения (например, задачу машинного перевода), но улавливает эту поставленную задачу на лету с первого примера.

2. Современный рынок диалоговых агентов

Разработка чат-ботов, персональных ассистентов и навыков к ним — растущая область. Особенно в области автоматизации колл-центров, запросов к сервисам покупки билетов и другим масштабируемым сервисам. Но часто чат-боты и навыки — это не про Data Science, а про то, чтобы сделать хороший продукт с диалоговым интерфейсом. Data Science там может и не быть.

Где нас слушать или читать

Слушайте выпуск на Яндекс. Музыке, Apple Podcasts, Google Podcasts или в подкастах ВК.

Расшифровка и дополнительные материалы — на странице подкаста на сайте «Системного Блока».
​​Визуализация: самые популярные книги библиотек Москвы
#visualisation

В библиотеках Москвы — более 11 млн книг. Учет всех книг ведется через единую систему, поэтому можно проанализировать, какие из них наиболее популярны среди читателей.

Лидеры в июне—июле 2020 года (по данным data.mos.ru):
• сатирический роман Андрея Волоса «Шапка Шпаковского» — у взрослой аудитории.
• «Конь с розовой гривой» Виктора Астафьева — у детей до 16 лет. Недавно произведение было включено в школьную программу.

В топе-10 самых популярных книг за 2014–2019 годы — современная российская проза. ­­­Первое место — «Авиатор» Евгения Водолазкина, второе — «Зулейха открывает глаза» Гузель Яхиной, а третье место делят «Любовь к трем цукербринам» Виктора Пелевина и «Обитель» Захара Прилепина. Из зарубежной литературы в рейтинг попал только роман «Сто лет одиночества» Габриэля Гарсиа Маркеса.

https://sysblok.ru/dataviz/markes-i-shest-let-rossijskih-pisatelej/

Павел Лебедев
​​Опубликована большая электронная коллекция романов
#news #philology

Проект «Дальнее чтение для европейской литературной истории» представил обновленную базу текстов. В каждом собрании или коллекции от 20 до 100 романов. Всего в базе 884 текста на 18 языках.

Коллекция доступна в виде архива Github. В нём есть информация о состоянии сборников, авторах и источниках.

Главная задача проекта — собрать коллекцию из 2500 полных романов и дополнить историю европейской литературы 19–20 веков. Сейчас разработчики оцифровывают и разграничивают неканонические книги, написанные женщинами в 1840–1920-х годах.

https://sysblok.ru/philology/opublikovan-otkrytyj-korpus-evropejskih-romanov/

Варвара Гузий
​​История стилометрии: как в разное время люди искали авторов текстов
#nlp

В 1440 году итальянский гуманист Лоренцо Валла написал трактат «О подложности Константинова дара», в котором доказал, что текст этой грамоты — подделка, написанная средневековой латынью VIII века, а не IV века, как предполагалось. До этого «Константинов дар» использовался римскими папами для получения светской власти над Неаполитанским королевством в XV веке.

Эта работа — первый пример определения авторства текста с опорой на сам текст. К сожалению, в ситуациях, когда временного разрыва между текстом и событием нет, такой метод не применим.

Появление стилометрии

В конце XIX веке ученые предположили, что для определения авторства и датировки текстов можно использовать количественные методы, то есть искать в текстах частотные атомарные факты.

Эти идеи развивали Томас Менденхолл, Винцетий Лютославский и Николай Морозов. После появления ЭВМ Фредерик Мостеллер и Дэвид Уоллес, наконец, успешно применили этот метод. Они выяснили, что автором 12 спорных памфлетов из «Записок федералиста» — сборника статей в поддержку утверждения Конституции США — был Джеймс Мэдисон (4-й президент США).

Современная стилометрия

Большинство современных стилометрических исследований опираются на метод Дельты, придуманный Джоном Барроузом (John Burrows) в конце 1990-х — начале 2000-х годов. В его основе лежит подсчет разницы в частотностях между наиболее частотными словами в спорном тексте и тех трудах, чье авторство не вызывает сомнения. Чем меньше дельта, тем выше вероятность, что текст принадлежит ближайшему автору.

Так Джон Барроуз изобрел первый универсальный инструмент для атрибуции текста. Его главный плюс в том, что результаты легко верифицировать экспериментально, а недостаток — что достоверно он работает только на больших текстах, не менее 5–10 тыс. слов.

Некоторые результаты стилометрических исследований

Например, подтвердилось мнение о том, что часть пьесы «Генрих VI» Шекспир писал в соавторстве с Кристофером Марло — одним из тех людей, кому иногда приписывают авторство Шекспира. Некоторые издательства уже указывают, что «Генрих VI» был написан в соавторстве.

Также мы уже писали о других исследованиях и их результатах:
об определении автора «Сна в красном тереме»;
об авторстве пьес Мольера;
об авторстве анонимных статей революционной эпохи;
о подлинности «Слова о полку Игореве».

https://sysblok.ru/knowhow/stilometrija-kak-v-raznoe-vremja-ljudi-iskali-avtorov-tekstov/

Алина Затонская, Даниил Скоринкин
Будущее интернета: децентрализация и новый цифровой завет
#society

Интернет — один из сложнейших технологических проектов человечества. И у этого проекта много проблем. Создатель веба Тим Бернерс-Ли даже заявил, что интернет «сломан» и его надо «починить».

Сеть, состоящая из миллиардов устройств, все еще очень централизована. Например, 34% всего интернета хранится на серверах Amazon — то есть зависит от одной конкретной компании из одной конкретной страны. Распределением IP-адресов занимается одна организация (ICANN) на глобальном уровне и еще пять — на региональном. Государства тоже стремятся централизовать доступ в сеть и контролировать его. Достаточно вспомнить «великий китайский фаерволл» или «суверенный Рунет» (пока, к счастью, не очень работающий).

Журнал «Дискурс» @discoursio рассказывает о проектах по децентрализации интернета и освобождении его от государственного и корпоративного контроля. Это не только криптовалюты, блокчейн и deep web. Здесь и системы с распределенным хранением сайтов прямо на компьютерах пользователей, и свободные децентрализованные файлообменники, и mesh-сети вообще без провайдеров.

https://discours.io/articles/social/buduschee-interneta-detsentralizatsiya-i-novyy-tsifrovoy-zavet
​​Как нейросеть реставрирует старые советские мультфильмы
#arts #knowhow

Главная проблема старых мультфильмов — низкое разрешение видеозаписи. Нейросеть DeepHD увеличивает изображение и делает его четким. Программа работает не только со старыми пленками, но и с прямыми трансляциями. Задача алгоритма — убрать шумы и искажения, которые возникают в процессе передачи или сжатия картинки.

Работа нейросети

Технология состоит из двух этапов:
• устранение помех — восстановление деталей.
• увеличение изображения — преобразование картинки в карты признаков и уменьшение расстояния между ними.

Программу обучали на картинках высокого качества, которые уменьшали для приближения к действительности. После обработки «дискриминатор» проверял достоверность исходного и улучшенного изображений. Если «подделку» было трудно отличить от «подлинника», результат работы нейросети считался положительным. С помощью новых датасетов, программа научилась различать объекты различных размеров и качеств.

DeepHD в кино

В мае 2018 года нейросеть испытали на нескольких советских фильмах: «Летят журавли», «Судьба человека», «Иваново детство» и др. У героев фильмов улучшились мимика и фактура одежды, исчезли пересветы.

С помощью технологии также улучшили 10 анимационных лент «Союзмультфильма»: «Котенок по имени Гав», «Дюймовочка», «Аленький цветочек» и др. Персонажи стали четче, повысилось качество фонов, вернулись детали, пропавшие при оцифровке. Все картины можно посмотреть на «КиноПоиске».

Альтернативные способы реставрации

Реставраторы-любители считают, что можно обойтись и без DeepHD. Вначале исходник, оцифрованный в Adobe Premier, разбивают на куски. После поправляют цвет, повышают резкость и убирают шумы. Это можно сделать с помощью программ Conbustion или VirtualDubMod. Восстановление займет много времени, но результат будет похож на DeepHD.

https://sysblok.ru/arts/vozvrashhenie-chetkogo-popugaja-kak-nejroset-restavriruet-starye-sovetskie-multfilmy/

Варвара Гузий
​​Посчитать Средневековье: что показывает сетевой анализ византийских писем
#history

В 2012 году австрийские ученые собрали и оцифровали средневековые письменные источники, чтобы провести их количественный анализ. Исследователи проанализировали переписки многих общественных деятелей: учитывали адресатов их писем и авторов писем к ним, а также измеряли частоту и оживленность переписки.

На основе из этих данных были построены графы, в которых отражались разные социальные связи: политические, клановые, матримониальные и даже экономические.

Какие можно сделать выводы

Выяснилось, что в период правления императора Андроника II Палеолога (1282–1328) родственные связи в среде знати в поздневизантийском обществе далеко не всегда означали тесное взаимодействие на политическом поприще. Также оказалось, что чем теснее человек взаимодействовал с императором, тем более «отчужденным» от своих современников он становился. Эта «отчужденность» сохранялась до 1321 г., когда в Византийской империи началась гражданская война.

После воцарения Андроника III (1328–1341) взаимодействий между представителями знати снова стало больше. Однако в конце его царствования снова наблюдалось «разобщение» элиты. Вероятно, это стало одной из причин коллапса империи и нового круга гражданской войны.

Сколько правили монархи в различных государствах

Ученые также сравнили историю Византийской империи с тем, что в то же время происходило в других странах — Китае, Египте, Англии и Венгрии. Выяснилось, что зависимость между быстрой сменой правителя (на следующий год) и факторами неблагоприятных внешних условий (природных катаклизмов, эпидемий и т. д.) — линейная. Чем хуже внешние условия, тем вероятнее, что правитель не удержится на престоле.

https://sysblok.ru/history/ot-razobshhennosti-k-vojne-chto-pokazyvaet-setevoj-analiz-vizantijskih-pisem/

Анна Ясинская
​​Как работают нейросети: подборка постов с пошаговыми разборами
#survey

Разбираем сложные технологии глубокого обучения, чтобы они становились понятны каждому.

Как работает нейросеть

Рассказываем, как нейросеть учится на своих ошибках и как она в случае неудачи платит по счетам. Если ранее вы пытались изучить вопрос самостоятельно, скорее всего, натыкались на сложные статьи с кучей терминов и оборотов. Мы объясняем базовые принципы работы нейросети простым языком.

https://sysblok.ru/knowhow/kak-rabotaet-neuroset/

Как работает градиентный спуск

Самое главное в обучении нейросетей — процесс уменьшения ошибки. Он в современных нейросетях основан на градиентном спуске. Градиентный спуск — это способ поиска точек минимума или максимума в сложных функциях. В конечном счете все упирается в производные — но посложнее, чем в школе.

https://sysblok.ru/knowhow/razbiraem-nejroseti-po-chastjam-kak-rabotaet-gradientnyj-spusk/

Как работает свертка в нейросетях

Мы привыкли, что в ВК, в Фейсбуке или Инстаграме можно за пару секунд наложить фильтр на изображение: размыть его, подправить цвет, яркость, контрастность, добавить какие-то пятна. В основе этих фильтров лежат те же принципы, что и в основе сверточных нейросетей — главного алгоритма для задач распознавания картинок, символов и прочего «компьютерного зрения». Рассказываем, как работает свертка.

https://sysblok.ru/knowhow/kak-rabotajut-filtry-v-instagrame/

Как посмотреть на мир глазами нейросетей

Еще один материал про компьютерное зрение. Здесь мы рассказываем, как свертки из картинок проходят через нейросеть — и алгоритм находит в них уши котиков, контуры машин и очертания лиц.

https://sysblok.ru/knowhow/kak-posmotret-na-mir-glazami-nejrosetej/

Как устроены рекуррентные нейросети с долгой краткосрочной памятью

Этот текст — про то, что такое языковая модель и зачем она нужна. Еще рассказываем, почему рекуррентная нейросеть (RNN), хорошо подходит под машинную обработку языка и как работает LSTM — усложненная модель RNN, которая умеет запоминать не все подряд, а только важное.

https://sysblok.ru/knowhow/mama-myla-lstm-kak-ustroeny-rekurrentnye-nejroseti-s-dolgoj-kratkosrochnoj-pamjatju/

Как работает «внимание» в нейросетях

Рассказываем о механизме «внимания» (attention), на котором работают в 2020 году все действительно крутые нейросети. Почему внимание стало killer-фичей диплернинга, что под капотом у attention mechanism, как нейросеть понимает, какие признаки текста или картинки важнее других.

https://sysblok.ru/knowhow/vnimanie-vse-chto-vam-nuzhno-kak-rabotaet-attention-v-nejrosetjah/

Как работают нейросети-трансформеры

Все лучшие современные нейросети — это сочетание механизма внимания и трансформерной архитектуры. Трансформеры — это нашумевшие GPT-2, GPT-3, а также BERT — главная рабочая лошадка компьютерной лингвистики. И еще тысячи менее известных нейростевых архитектур. Осенью 2020 года Яндекс вкрутил свой трансформер YATI в. поиск. Рассказываем, как устроены трансформеры и чем они лучше предыдущих архитектур.

https://sysblok.ru/knowhow/kak-rabotajut-transformery-krutejshie-nejroseti-nashih-dnej/
​​Как построить карту возрастов зданий на открытых данных: проект How old is this house?
#urban

Проект how-old-is-this.house занимается визуализацией возраста зданий на карте. В отличие от других интерактивных карт, проект показывает всю картину, а не только жилые дома.

Создание карты

• Ядро проекта — геометрия зданий из Росреестра 2016 года. Там большинству домов присвоен год постройки.
• Актуализация — датасет OpenStreetMap, благодаря которому на месте старых заводских цехов на карте появились новые ЖК, лофты и концертные залы.
• Смысловое наполнение — данные Министерства культуры, Викимапии и Wikidata. Сюда входит информация о названиях, стилях, архитекторах, фотографиях и т.д.

В итоге получилось 259 тысяч построек, из которых возраст известен у 129 тысяч. Пик пришелся на 1917 год, так как после революции к нему отнесли все дома с неизвестным годом строительства. А с началом советского периода все становится логично: провал Великой Отечественной, массовое строительство хрущевок в 1960-х и спад до 1990-х.

Визуализация

Ассоциативный контекст связывает дома либо с советскими лидерами, либо — в наши дни — с градоначальниками. Авторы проекта не нашли способ разграничить исторические эпохи и периоды строительства.

Легенда карты выделяет девять периодов:
• Допетровская Россия;
• Российская Империя;
• Ленин;
• Сталин;
• Хрущев;
• Брежнев;
• Андропов,
• Черненко,
• Горбачев;
• Лужков;
• Собянин.

У каждого периода свой цвет: дореволюционные дома окрашены в красно-кирпичный цвет, сталинские высотки — в ярко-желтый, семидесятые тускловато-зелёные, а современные здания — холодного синего цвета.

Результаты и дальнейшие планы

К сожалению, результат нельзя назвать безупречным. Каждый этап геопроцессинга несет не только новые данные, но и возможные ошибки: велик шанс, что на дом в базовом слое наложилась точка, обозначающая здание или событие по соседству. Но карту можно редактировать: пользователи могут зайти в карточку объекта и внести или изменить информацию о доме, где была замечена ошибка.

Сейчас команда проекта работает над новыми городами: скоро на сайте появятся карты Екатеринбурга и Воронежа, на очереди Пенза и Нижний Новгород.

https://sysblok.ru/urban/kak-postroit-kartu-vozrastov-zdanij-na-otkrytyh-dannyh-proekt-how-old-is-this-house/

Милана Глебова
​​Что такое Legal Tech: можно ли автоматизировать юриста
#society

Legal Tech — отраслевой способ цифровой трансформации для упрощения профессиональной деятельности юристов. В юриспруденции сложно полностью заменить человека роботами, так как в судопроизводстве есть нюансы, связанные со сложными этическими вопросами, трактовкой законов или глубоким анализом документов.

Legal Tech в США

Наиболее развит рынок Legal Tech в США. Одна из самых быстрорастущих компаний — Rocket Lawyer, услугами которой уже воспользовались 20 млн клиентов. Компания проводит онлайн-консультации с юристами, а также имеет «дежурных» адвокатов, которые мгновенно отвечают на вопросы клиентов. Еще есть сервис для составления различных договоров: человек добавляет на сайте необходимую информацию и получает готовые документы. Часовая консультация обычного адвоката составляет 500–1000 долларов, а в Rocket Lawyer — 120 долларов.

Legal Tech в Китае

В Китае Legal Tech завязан на государство и его правоохранительные функции. В августе 2017 года Верховный народный суд Китая учредил первый интернет-суд в Ханчжо, а в 2018 году интернет-суды были учреждены в Пекине и Гуанчжоу. Функции интернет-суда — онлайн-регистрация дел, запрос информации по делам, регистрация электронных доказательств и др.

Legal Tech в Евросоюзе

В Европе в области Legal Tech выступает компания Mynotary, специализирующаяся на риэлторских услугах. Это первая платформа, которая цифровизировала сам процесс создания договора: документ можно изменять и дополнять онлайн, а не отправлять друг другу внесенные изменения на согласование по нескольку раз. Договор можно подписать электронной подписью из любой точки мира. Как только договор купли-продажи подписан продавцом, он отправляется покупателю в один клик.

Legal Tech в России

В России к Legal Tech можно отнести сервисы «Консультант плюс» и «Гарант». Это справочные правовые системы, которые содержат в себе обширную судебную практику и формы документов, а также версии кодексов, законов и иных нормативных правовых актов с комментариями экспертов в актуальной редакции. Еще существуют автоматические конструкторы юридических документов, платформы управления интеллектуальной собственностью и инструменты для интеграции LegalTech-решений в сторонние IT-системы — например, у Гаранта для этого разработан специальный API.

Что станет с юристами в будущем

В ближайшие 20 лет в юридической области вряд ли произойдут кардинальные изменений в трудоустройстве. Почти все юридические технологии-либо вспомогательные, либо слишком сырые: они решают простые небольшие задачи, но не заменяют юриста целиком.

https://sysblok.ru/permhse/chto-takoe-legal-tech-i-mozhno-li-avtomatizirovat-jurista/

Ксения Филиппенко
​​Алгоритм против копирайта: как запатентовать все мелодии мира
#news #arts

Ноа Рубин и Дэмиен Риль заявили права собственности на каждую когда-либо написанную мелодию песни. Для этого они создали алгоритм, который сгенерировал все возможные 8-тактовые мелодии из 12 звуков одной октавы — то есть все комбинации нот в заданном диапазоне.

Таким способом авторы проекта All the Music LLC хотят покончить с судебными разбирательствами в музыкальной индустрии. Они считают, что если все мелодии могут быть выражены в виде комбинаций, которые существовали с начала времен, то копирайт на них действовать не должен. Иными словами, они ставят знак равенства между сочинением музыки и выбором из конечного числа уже сгенерированных мелодий.

Архив со всеми мелодиями выложили в открытый доступ и сделали их общественным достоянием. А код алгоритма опубликовали на GitHub под лицензией Creative Commons Zero, что также предполагает отказ от авторских прав.

https://sysblok.ru/news/algoritm-protiv-kopirajta-kak-zapatentovat-vse-melodii-mira/

Михаил Совин
​​Создали корпус русских переводов общественно-политических сочинений XVIII века
#history

Русский политический язык начал формироваться в XVIII веке. Это время во многом стало переломным для русского общества. Оно стало больше ориентироваться на Запад, и идеи Просвещения затронули все сферы жизни. Тогда же стали активно переводиться различные издания о политике: от памфлетов до словарей и учебных пособий.

Осенью 2020 года Высшая школа экономики в сотрудничестве с Германским историческим институтом в Москве представили корпус переводов общественно-политических текстов XVIII века. Он помогает проследить формирование русского политического языка. В корпусе есть философские трактаты, художественные произведения политического характера, учебники и словари.

Как работать с корпусом

На сайте доступны два вида поиска — простой и расширенный. Результат запроса содержит количество совпадений, которые классифицируются на переводы, образцы, оригиналы и т. п. Также показывается место хранения перевода и год публикации.

Каждый перевод представлен в виде ссылки на отсканированное печатное издание. Его описание содержит краткие сведения о сочинении, его переводчике, основной теме текста, его издании и месте хранения оригинала.

Еще на сайте созданы страницы переводчиков, где собраны все переводы, выполненные одним человеком. Это дает представление о личности переводчика, его общественно-политических интересах и стиле переводов. Также есть справочный материал — словарь основных понятий.

https://sysblok.ru/history/carskie-svitki-i-biografija-konfucija-chto-est-v-korpuse-russkih-perevodov-obshhestvenno-politicheskih-sochinenij-xviii-veka/

Виолетта Арстанова
​​Старое новое: почти 300 лет истории дистанта
#history

Несмотря на то, что дистанционный формат кажется относительно новым явлением, он появился гораздо раньше: в 2028 г. ему исполнится 300 лет.

XVIII век

Дистанционный формат появился в XVIII веке. Профессор Калеб Филипс организовал дистанционные курсы стенографического письма: желающие могли откликнуться на объявление, размещенное в Boston Gazette. Курс не предусматривал обратной связи.

XIX век

Появляются дистанционные курсы с обратной связью. Этот формат назывался корреспондентским обучением: студентам по почте отправляли учебные материалы и задания, после они отправляли их на проверку.

• В 1840 г. британский учёный Айзек Питман организовал курс стенографии.
• В 1856 г. француз Шарль Туссан и немец Густав Лангеншайдт организовали разговорные курсы по иностранным языкам.
• В 1873 г. писательница Анна Эллиот Тикнор организовала «Общество поощрения обучения на дому». Это была настоящая заочная школа, где женщины получали полноценное высшее образование. В школе Тикнор учились не только состоятельные дамы, но и представительницы рабочего класса.

XX век

В 1969 г. в Лондоне появился первый радио- и телевизионный университет — Открытый университет. Он располагался в бывших студиях телеканала BBC. Оттуда транслировались 30-минутные лекции, которые студенты смотрели и слушали в прямом эфире. Преподаватели также общались со студентами по почте и во время летних очных школ.

Университет практиковал принцип open broadcasting: лекции доступны всем желающим, но вот зачесть их могут только поступившие студенты.

Вскоре похожие университеты появились и в других странах:
• 1972 г. — Национальный университет Дистанционного Образования (Испания) и Корейский Национальный Открытый Университет.
• 1985 г. — Национальный Открытый Университет имени Индиры Ганди (Индия).
• 1986 г. — Центральный Радио- и Телевизионный Университет (Китай). Ему подчинялось 28 районных дистанционных университетов и 300 школ.

XXI век

С появлением компьютеров дистанционное образование становится более мобильным. В 1989 г. коммерческий Университет Феникса запустил первые онлайн–программы для студентов. Уже в 2005 г. почти половина студентов Университета Феникса занималась дистанционно.

А первым в истории аккредитованным онлайн–университетом стал Международный Университет Джонса в штате Колорадо.

В 2020 г. дистанционное обучение начали применять повсеместно из-за пандемии коронавируса.

https://sysblok.ru/history/staroe-novoe-pochti-300-let-istorii-distanta/

Мария Черных
​​Ткани онлайн: как оцифровать полотно в 6 метров
#arts #history

Многие ткани — важные музейные экспонаты. Иногда это небольшие фартуки, но чаще — массивные платья с многочисленными узорами.

Что происходит с тканями, которым уже более ста лет? Ответ прост: их оцифровывают, как и другие артефакты.

Техники нанесения узора на ткань

Ценность экспоната заключается не только в узорах, но и способах создания:

Ручная набивка — появилась в 10 веке. По деревянной форме ударяли специальным молотком — киянкой. Тиснение отпечатывалось на заранее окрашенной ткани.
Механическая печать — на поверхности металлического вала гравировался рисунок, который мастер переносил на носитель. После инструмент окунали в краситель, благодаря чему выгравированный на ролике узор переносился на материал.
Прямая печать — самая поздняя техника. Для легкой ткани используется обычный алгоритм работы струйного принтера, для плотной необходимо предварительное нанесение специальной грунтовки.

Оцифровка ткани

Чтобы превратить полотна в цифровые файлы, сканируют каждый узор. С помощью сканера формата А3 определяют уникальный фрагмент на ткани, повторяющийся рисунок. Затем происходит склеивание: деталь соединяют, регулируя радиус каждого кусочка. В конце работы формируется готовый файл, который хранится в облаке.

Мультимедийные экспозиции

Лондонский музей Виктории и Альберта создал виртуальную выставку, на которой можно увидеть антикварные и новые ткани из собраний модного дома Александра Маккуина.

А в России в Ивановском краеведческом музее создали онлайн–выставку, посвященную тканям прошлых столетий. В экспозиции представлены 300 тканей русских костюмов XIX–XX веков.

https://sysblok.ru/arts/tkani-onlajn-kak-ocifrovat-polotno-v-6-metrov/

Лиза Снежко
​​Создание робота-клона и дружба с нейросетью
#society

Компании все чаще представляют новые модели роботов-андроидов. У робототехников большие планы на будущее: андроиды возьмут на себя рутинную и опасную работу. Но есть и другая сторона: роботы-клоны.

Для создания стопроцентной идентичности человека и машины потребуются годы. Даже самого продвинутого на сегодняшний день андроида Софию пока не спутаешь с человеком. Но уже возник вопрос: является ли производство двойников и клонов технологическим будущим или это практика, не вписывающаяся в этические нормы.

Заказы в робототехнике

Нестандартные пожелания — вовсе не редкость в рабочей рутине производителей роботов. В компании Promobot столкнулись со следующим кейсом: после развода с женой бразилец заказал точную копию сына, поскольку жена запретила видеться с ребенком. Компания отказалась брать заказ из-за морально-этических принципов.

Большинство предприятий отказывается от двух направлений: клонирования умерших людей и создания секс-роботов. Тем не менее, в Promobot можно заказать робота-двойника: модель Robo-С создается на основе нескольких фотографий.

Дружба с ИИ

Наши представления об ИИ и роботах сформированы массовой культурой. Тимофей Нестик, заведующий лабораторией социальной и экономической психологии Института психологии РАН, отмечает следующие особенности «дружбы» с роботами:

• чем чаще люди пользуются цифровыми услугами, тем они меньше склонны связывать с ними ИИ;
• доверие к роботам и системам ИИ выше среди тех, кто больше доверяет людям;
пользователь представляет опасность для ИИ, когда обучает негативному взгляду на мир;
• робот-клон не заменит умершего человека: скорее станет источником дополнительной травматизации.

Право и роботы

Важный вопрос — ответственность за действия системы. Пока наиболее вероятно привлечение к ответственности разработчиков вместе с владельцами систем, но в отношении андроидов даже это сейчас не рассматривается.

Также, в завещании уже можно заявить о желании или нежелании своего продолжения в виде клона или другого цифрового обличия.

https://sysblok.ru/society/chto-ne-tak-s-zhelaniem-sozdat-robota-klona/

Юлия Захарова
​​Разделяй и определяй, или Кто автор «Сна в красном тереме»
#philology

«Сон в красном тереме» — один из «четырех великих романов Китая». В нем повествуется о двух ветвях аристократической семьи Цзя и её постепенном упадке.

Оригинальная версия Цао Сюэциня содержит 80 частей, однако в 1791 году было опубликовано новое издание Гао Э из 120 частей. До сих пор ведутся дискуссии о том, сколько авторов у «Сна в красном тереме».

Поиски истинного автора

Метод Дельты Бёрроуза применяется для установления или уточнения авторства произведений.

Дельта представляет каждый текст в виде списка частотностей скольки-то (N) самых частотных слов — обычно берут от 100 и более слов. Таким образом текст становится вектором в N-мерном пространстве. Затем между этими векторами текстов измеряются расстояния — с помощью обычных геометрических мер близости. На основе этих расстояний и устанавливается наиболее вероятное авторство. Универсальность метода была многократно подтверждена на материале разных жанров, языков и эпох. В том числе на китайских текстах.

Если разложить главы согласно алгоритму кластеризации, видно что первые 80 глав наименее схожи с позднее опубликованными. Но есть исключение: главы 10 и 11, а так же 6 и 67 (из первой части) объединяются на первом шаге друг с другом, а уже на втором — с главами второй части. Возможные причины: неточный результат Дельты, большое количество имен собственных, редактура второго автора. Последнее проверяется с помощью тематического моделирования.

Тематическое моделирование

Для проверки результатов Дельты использовали версию романа, наиболее близкую к ранним изданиям.
• Предварительная обработка — токенизация и разделение. Это важно для разделения текста на слова, так как границы не обозначены пробелами.
• Формирование списка из стоп-слов — слова, которые нельзя интерпретировать.
• Определение тем — всего 50. Выходные данные свели в соответствии с главами.
• Визуализация — согласно соотношению тем с главами. Ось X – темы, ось Y – главы; красная линия разделяет первые 80 частей и последние 40.
• Распределение слов внутри темы — слова не связаны определенным мотивом.

Метод Дельты Бёллроуза не ошибся: действительно, главы 11 и 67 отличаются от первоначального текста романа. Отличаются не только именами персонажей или сюжетом, присутствуют и стилистические различия. С большей вероятностью, главы 11 и 67 отредактировал Гао Э.

https://sysblok.ru/philology/razdeljaj-i-opredeljaj-ili-kto-avtor-sna-v-krasnom-tereme/

Вероника Ганеева