Системный Блокъ
10.8K subscribers
241 photos
2 videos
1 file
877 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
加入频道
​​Не обделены вниманием: как IT-компании взаимодействуют с органами власти
#society

Недавно «Яндекс» раскрыл информацию о количестве запросов на раскрытие пользовательских данных, которые поступают к нему от госорганов. Это не первый случай, когда в России публикуется так называемый «отчет о прозрачности» (transparency report).

Отчёт о прозрачности раскрывает статистику о том, сколько раз за последнее полугодие органы государственной власти запрашивали у компании данные о пользователях, требовали удалить материалы или ограничить к ним доступ.

Прозрачность на Западе

Первой подобный отчёт опубликовала компания Google в 2010 году. Предпосылкой стал конфликт между интернет-гигантом и министерством юстиции США и последующая обеспокоенность нарушением конфиденциальности данных со стороны государства.

В конце 2009 года Google публикует в корпоративном блоге заявление о приверженности открытости и через несколько месяцев обнародует первый отчет, охватывающий полугодичный период, и в последующем добавляет дополнительные разделы: данные по ограничению трафика, основания предъявляемых требований, долю выполнения запросов.

К кампании по прозрачности присоединяются Twitter, Apple, Facebook и др. Наличие отчета улучшает положение компании в глазах пользователей.

Ситуация в России

Первыми в России отчет о прозрачности опубликовал Habr. В заявлении авторы указали на недоверие со стороны ряда пользователей в связи с трансформациями сайта и сервисов. Решением этой проблемы стала публикация в 2018 году отчёта и появление нового раздела о взаимодействии с госорганами и его постоянная актуализация.

В 2020 году к кампании по прозрачности присоединился Пикабу, также заявив, что цель подобных заявлений — это «демонстрация широкой публики открытость организации» и выполнение запросов собственных пользователей портала.

Интернет-компании Яндекс и Mail. ru ранее обвинялись в нераскрытии информации о взаимодействиях с органами власти. Заявление Яндекса начинается с тезиса о том, что компания «регулярно получает запросы от органов государственной власти» и не смотря ни на что вынуждена на них отвечать из-за действующего законодательства. Однако не указано, что компания заинтересована в открытости этих данных и желает выстроить доверительное взаимодействие с пользователями путём раскрытия подобных практик.

Что можно узнать из отчетов о прозрачности

Отчет о прозрачности — это не просто отчет о запросах данных пользователей, это широкий спектр практик взаимодействия с госорганами.

У компаний нет единых стандартов раскрытия информации: Яндекс сделал разбивку по сервисам, Хабр и Пикабу выделили заявителей (в лице МВД, Роскомнадзора и др.), а также сами требования (запрос информации о пользователе, исключение из результатов поиска, запрос о представлении пояснений).

Часто хотелось бы также видеть количество элементов, на которые направлены запросы, и количество затрагиваемых пользователей. Например, в отчете Google за вторую половину 2019 года со стороны России было 258 запроса, которые касались 463 аккаунтов — один запрос содержал несколько аккаунтов.

Взаимодействие с законом

Благодаря публикации отчетов о прозрачности виден масштаб взаимодействия частных компаний и государства, тенденции в работе правоохранительных и государственных органов. Возможности компаний и сервисов в публикациях отчётов дополнительно ограничены национальным законодательством, которое в случае чего может быть ужесточено.

В интересах гражданского общества и академических сообществ — требовать послабление условий публикации запросов. Например, через законных представителей в парламенте или через сбор подписей и формирование инициативных групп. Построение прозрачного и открытого общества требует усилий как компаний, так и самих пользователей.

Подробности со скриншотами — в нашей статье: https://sysblok.ru/society/ne-obdeleny-vnimaniem-kak-it-kompanii-vzaimodejstvujut-s-organami-vlasti/

Дмитрий Васильев
​​Мы с Тамарой ходим парой: как работает современный алгоритм токенизации текстов
#nlp

За последние несколько лет NLP совершила огромный скачок. Перевести текст в машиночитаемый формат можно с помощью различных инструментов: от матриц совместной встречаемости и Word2Vec до RNN и трансформеров.

А в качестве первого шага в обработке любого текста обычно проводится токенизация. На этом этапе происходит разделение текста на более мелкие единицы — на предложения и слова. Затем обычно создается словарь, в который заносятся уникальные лексемы, встретившиеся в корпусе или тексте. На этих этапах ученые сталкиваются с несколькими проблемами.

Проблема 1: языки с богатой морфологией

Это языки с развитыми системами склонений и спряжений слов. При работе с текстами на этих языках сложность возникает при составлении словаря, когда нужно найти и объединить все словоформы одной и той же лексемы.

Пример — русский язык, в котором есть падежи. При переводе слова в векторное пространство нужно учитывать, что стол, столу и столом – это одно слово в разных падежных формах, а не 3 уникальных лексемы. Чтобы решить эту задачу, текст можно предварительно лемматизировать, или применить стемминг (от английского stem – стебель), то есть просто отрезать у слов окончания.

Проблема 2: языки с продуктивным сложением основ

В германских языках (в английском, немецком, шведском и т.д.) очень продуктивно образуются новые сложные слова. Значения таких слов выводятся из значения их элементов, их можно создавать бесконечно долго, и большинство из них не зафиксировано в “бумажном” словаре.

При работе с этими языками сложность также возникает на этапе составления словаря. При составлении словаря модели ориентируются на частотность (например, сохраняем слово, если оно встретилось чаще пяти раз), поэтому не будут запоминать такое длинное и сложное слово.

Проблема 3: определение границ слова

Современные лингвисты до сих пор не могут придумать универсальное определение понятию слово и в каждой конкретной ситуации объясняют его по-разному. Для нас, привыкших к языкам европейского типа, слово — это набор букв между пробелами и знаками препинания. По таким разделителям компьютер тоже может легко найти слово.

Но в английском языке многие сложные слова пишутся раздельно, я в японском, наоборот, между словами вообще нет пробелов. Поэтому универсальный токенизатор создать было нелегко.

Решение — Byte Pair Encoding

Первый настоящий прорыв в этом направлении был сделан исследователями из Эдинбургского университета. Они создали подслова в нейронном машинном переводе, используя алгоритм BPE — Byte Pair Encoding.

Изначально BPE был представлен как простой алгоритм сжатия данных без потерь. В феврале 1994 года Филипп Гейдж в статье «Новый алгоритм сжатия данных» описал метод, который работает так: самые частотные пары символов заменяются на другой символ, который не встречается в данных, при этом объем используемой памяти снижается с двух байт до одного. Пример кодировки прикрепляем ниже.

Для задач NLP алгоритм BPE был немного изменен: часто встречающиеся группы символов не заменяются на другой символ, а объединяются в токен и добавляются в словарь. Алгоритм токенизации на основе BPE позволяет моделям узнавать как можно больше слов при ограниченном объеме словаря и выглядит так:

Шаг 0. Создаем словарь.
Шаг 1. Представляем слова из текста как списки букв.
Шаг 2. Считаем количество вхождений каждой пары букв.
Шаг 3. Объединяем самые частотные в токен и добавляем в словарь.
Шаг 4. Повторяем шаг 3 до тех пор, пока не получим словарь заданного размера.

Сегодня схемы токенизации подслов стали нормой в самых продвинутых моделях, включая очень популярное семейство контекстных моделей, таких как BERT, GPT-2, RoBERTa и т. д.

https://sysblok.ru/nlp/7250/

Анна Аксенова
​​«Цифровой антрополог отличается от Data Scientist’а вниманием к деталям»: интервью с Дарьей Радченко
#interview

В 2020 году в нашей повседневности многое изменилось. Чтобы лучше понять, что происходило с обществом, провалившимся в онлайн во время пандемии, «Системный Блокъ» обратился к специалисту по цифровым социальным исследованиям — Дарье Радченко, заместителю руководителя Центра городской антропологии КБ «Стрелка».

В марте 2020 года команда аналитиков из КБ «Стрелка» задалась вопросом о том, как город меняется во время карантина. К этому моменту уже появился, например, «Индекс самоизоляции» Яндекса, но им был интересен немного иной ракурс. При помощи анализа данных из Инстаграма и других социальных сетей они провели свое исследование.

О чем мы поговорили с Дарьей

• Какие подходы цифровые антропологи используют в своих исследованиях;
• Что говорят об эффективности весеннего карантина данные Инстаграма и других соцмедиа;
• Как люди на самоизоляции «переоткрыли» заново свои спальные районы;
• Каковы ограничения Data Science в социальных исследованиях.

https://sysblok.ru/interviews/cifrovoj-antropolog-otlichaetsja-ot-data-scientist-a-vnimaniem-k-detaljam-intervju-s-darej-radchenko-kb-strelka/

Оля Ивлиева, Даниил Скоринкин
​​Социальный digital вместо нелегальных помидоров: интервью с сооснователем IT-проекта для беженцев TaQadam
#society #interview

Платформа TaQadam — пример интеграции социальных задач и IT-предпринимательства. Проект направлен на помощь одному из самых незащищенных слоев населения Ливана — беженцам. «Системный Блокъ» поговорил с сооснователем проекта Кариной Грошевой о том, как можно и нужно обеспечивать беженцев работой, которая не требует специального разрешения.

Статус беженца позволяет человеку без вида на жительство или гражданства легально находиться на территории страны, но не всегда разрешает работать. Из Сирии в соседний Ливан люди бежали от войны в надежде, что скоро вернутся домой. Сейчас временное пристанище стало для них постоянным.

Многие беженцы работают нелегально. Например, торгуют продуктами на рынке или продают одежду. Они часто пытаются перебраться в Европу, где есть шанс получить стабильное трудоустройство. Согласно данным BBC, в 2015 году в страны ЕС прибыли от 1 до 1,5 миллиона беженцев и нелегальных мигрантов.

Некоторые беженцы, оказавшиеся в Ливане, тоже пытаются добраться до Европы, но большинство все еще остается в стране. Несмотря на нестабильную экономическую ситуацию, заработок приходится искать внутри Ливана.

Проект TaQadam

IT-стартап TaQadam (с арабского — «прогресс») — один из вариантов легального трудоустройства. Суть работы — разметка спутниковых снимков. Беженцы отмечают на изображениях жилые дома и коммерческие здания, посевные поля и фермы, лес и траву. Создателям платформы поступает заказ на разметку определенной территории, а работники-беженцы выполняют заказ, после чего получают зарплату в долларах.

Пока штат работников невелик — около 80 человек трудятся на постоянной основе. Платформа живет от заказа к заказу, поэтому большее количество беженцев задействовать не получается.

О чем мы поговорили с Кариной

• Как возникла идея создать такой проект;
• Как создавалась платформа и как она работает сейчас;
• Почему TaQadam занимается спутниковыми снимками;
• Как беженцу начать работать с TaQadam и что конкретно он будет делать;
• Сколько можно заработать на разметке;
• О демографии работников и экосистеме стартапов в Ливане.

https://sysblok.ru/society/socialnyj-digital-vmesto-nelegalnyh-pomidorov-intervju-s-soosnovatelnicej-it-proekta-dlja-bezhencev-taqadam/

Виктория Багдасарьянц
​​Как работают трансформеры — крутейшие нейросети наших дней
#knowhow

Трансформер — самая модная сегодня нейросетевая архитектура. Она появилась в 2017 и перевернула всю обработку языка машинами. Мы расскажем о структуре трансформера без кода — чтобы потом при взгляде на код вы могли понять, что он делает.

Трансформер придумали ученые из Google Research и Google Brain. Целью исследований была обработка естественного языка, но позже другие авторы адаптировали трансформерную архитектуру под любые последовательности. Сегодня если нейросеть распознает или генерирует текст, музыку или голос, скорее всего, где-то замешан трансформер.

В первой части нашей статьи

• Расскажем, что такое «внимание на себя» (self-attention) и зачем нужна нейросеть с прямой связью
• Введем новые термины, которые придумали изобретатели трансформера
• Расскажем подробнее о dot product attention, «скалярном внимании», (обычно это название не переводят).
• Расскажем о том, как из «скалярного внимания» сделать «взвешенное скалярное внимание»
• Объясним, зачем одну и ту же операцию «взвешенного скалярного внимания» повторять несколько раз с разными настройками: так получится описание «multi-head attention» — «многоголового внимания». Именно этот механизм задействован в нейросети-трансформере.

https://sysblok.ru/knowhow/kak-rabotajut-transformery-krutejshie-nejroseti-nashih-dnej/

Во второй части нашей статьи

• Добавим нормализацию;
• Добавим позиционное кодирование (перед самым первым слоем энкодера);
• Разберем устройство декодера, его отличия от энкодера;
• Сравним внимание «на себя» и не на себя;
• Объясним, что является результатом работы нейросети;
• Расскажем, что такое маскировка значений и зачем она нужна;

https://sysblok.ru/knowhow/nejroseti-transformery-iznutri-kak-rabotaet-dekoder/

Владимир Селеверстов
«Системный Блокъ» запускает подкаст
#podcasts

Наш подкаст — об искусственном интеллекте. Сегодня словосочетание «искусственный интеллект» звучит отовсюду, но не значит примерно ничего. Поэтому наш подкаст называется «неопознанный искусственный интеллект», сокращенно «НИИ». Мы хотим разобраться, что называют искусственным интеллектом сегодня, как работают эти технологии, есть ли там настоящая «интеллектуальность» и появится ли она в будущем.

К нам в «НИИ» приходят люди, причастные к созданию искусственного интеллекта, — программисты, инженеры, лингвисты, математики, а также специалисты и ученые из других областей.

Наши гости

• Татьяна Шаврина, руководитель команды, которая занимается обработкой языка и искусственным интеллектом в Сбере;
• Константин Воронцов, профессор Вышки, профессор МФТИ, профессор РАН;
• Виктор Кантор, chief data scientist в МТС;
• Дмитрий Ветров, профессор, исследователь факультета компьютерных наук Высшей школы экономики

и другие эксперты в области машинного обучения, анализа данных и искусственного интеллекта.

Что мы обсуждаем с гостями

• где потолок развития нейросетей;
• что умеют GPT-2 и GPT-3;
• как понять, что машина стала разумной;
• нужны ли лингвисты для создания «сильного» ИИ;
• и не уничтожит ли такой ИИ человеческую цивилизацию💥

Где нас слушать

Первый выпуск подкаста «НИИ» мы выложим 7 декабря. А пока послушайте наш 3-минутный трейлер и подпишитесь на нас в Яндекс.Музыке или Apple Podcasts. Есть мы и в ВК.

А еще загляните на страничку «НИИ» на сайте «Системного Блока» — там есть дополнительные материалы для всех, кому интересны ИИ, data science и машинное обучение.
​​Интерактивная минералогия: как старинные рисунки камней стали цифровым проектом
#digitalheritage

Проект «Британская и экзотическая минералогия» — это коллаж из 718 изображений различных минералов мира. Ранее они входили в 7-томный сборник натуралиста, иллюстратора и минералога Джеймса Сауерби, созданный им в начале 19 века. Он создал наиболее точные и подробные рисунки известных полезных ископаемых и расположил их по цвету.

Исследователь собрал изображения в 2 серии из 718 пластин. После он поделил их на 5 томов о минералах Великобритании и 2 издания об экзотической минералогии. Работы ученого до сих пор считаются одними из лучших в этой области.

Кто и зачем создал интерактивный коллаж

В конце весны 2020 года трудом Сауерби заинтересовался веб-дизайнер Николас Ружо. Для этого художник данных обратился к отсканированным изданиям. Ружо «очистил» и восстановил первоначальную яркость и даты изображений. Все материалы по полезным ископаемым состояли из 718 ключевых цветов и 2242 рисунков.

Ружо хотел создать не репродукцию, а «уникальный взгляд на старую тему». В итоге у Николаса получился интерактивный коллаж. К каждому ископаемому прилагается подробное описание, список имен исследователей, характеристики и детали классификации.

Как Ружо создавал коллаж

Из-за ограничений по сборке, упаковке и сохранению размера картинок, Ружо обрабатывал иллюстрации блоками по 10 изображений и так перемещал их в редактор. Затем он отсортировал все цвета ископаемых по оттенку и разделил их на равные группы, которые сложились в столбцы.

Столбцы дизайнер разложил по яркости, чтобы расположить по ним восстановленные иллюстрации. Все они упаковывались с помощью программы InDesign в специальную сетку в соответствующие места. На видео можно посмотреть, как происходила расстановка первых 400 объектов.

На этом Николас не остановился: он сделал коллаж интерактивным, добавил плитки для масштабирования и горячие точки. Изображения стали кликабельными, у них появились характеристики и описания. Последние Ружо скопировал с оригинальных архивных иллюстраций и переформатировал.

Сам проект, по его словам, занял 4 месяца. Время подготовки финального коллажа составило 4,5 часа ручного перемещения элементов. Ниже прикрепляем финальную версию постера.

На странице проекта есть краткая инструкция о том, как находить данные и перемещаться по коллажу. При выборе объекта пользователь видит специальное окно с информацией об ископаемом. Справка содержит увеличенное изображение минерала, его синонимичные названия, описание его форм и физических характеристик.

Также, на сайте проекта можно заказать пазл или постер с коллажом.

https://sysblok.ru/digital-heritage/interaktivnaja-mineralogija-kak-starinnye-risunki-kamnej-stali-cifrovym-proektom/

Варвара Гузий
​​Первый выпуск подкаста НИИ: как прийти к «сильному» искусственному интеллекту 🤖
#podcasts

Темы первого выпуска

• Что может и чего не может современный «искусственный интеллект»
• Почему у нас нет универсальных роботов-помощников, подобных R2D2, JARVIS и C3PO
• В чем «узкий ИИ» (Narrow AI) еще бесконечно далек от человека
• Нужно ли моделировать ИИ на основе человеческого интеллекта и человеческого мозга
• Чем плох тест Тьюринга и какой тест позволил бы надежно определить интеллектуальность машины
• Почему подкаст называется «Неопознанный искусственный интеллект»
• И главное: что будет происходить в следующих выпусках, когда появятся гости

Хайлайты выпуска

1. Эпоха «узкого» ИИ

Мы живем в эпоху Narrow Artificial Intelligence или узкого искусственного интеллекта. Есть множество машин, которые умеют решать отдельные интеллектуальные задачи: Например, AlphaGo играет в Го, сверточная нейросеть в фотоприложении отличает кошечек от собачек, а антиблокировочная система в автомобиле управляет тормозами и понимает, когда их надо сжимать и разжимать — это тоже весьма интеллектуальная операция.

2. В чем проблема «узкого» ИИ

Узкие ИИ-системы неадаптивны — они не умеют приспосабливаться к разным задачам в процессе своей работы. Узкий ИИ противопоставляется общему или «сильному» ИИ — General Artificial Intelligence. «Сильный» ИИ должен приспосабливаться к новой среде и новым правилам, примерно как это делает человек. Но такого ИИ еще не существует.

3. Как тестировать ИИ на интеллектуальность

Тест Тьюринга слишком зависит от того, кто его проводит и какие вопросы он задает. Этот тест можно усложнить — например, не просто разговаривать с машиной, а пытаться научить ее играть в игру. Причем, любую — даже выдуманную на ходу. В этом суть «теста Старостина». Подробнее о тесте можно послушать в первом выпуске подкаста НИИ.

Где нас слушать или читать

Слушайте выпуск на Яндекс. Музыке, Apple Podcasts, Android Podcasts или в подкастах ВК.
Читайте нашу расшифровку, дополнительные материалы есть на страничке подкаста на сайте «Системного Блока».
​​Как измеряют вес исторических событий и личностей в коллективной памяти общества
#history #digitalmemory

Есть исторические события, о которых помнят, думают и спорят миллионы людей. А есть такие, которые никому не интересны, и никакие государственные выходные вроде Дня народного единства этого не изменят.

Ученые из Люксембургского центра современной цифровой истории, Токийского столичного университета и Киотского университета решили исследовать, как пользователи Twitter относятся к истории и какие события и исторические личности для них являются ключевыми.

Сбор данных

Исследователи работали с англоязычными твитами за март 2016 — февраль 2017, отобранными по специальному списку хэштегов — от #onthisday до #HistoryTeacher. Твитов было собрано около 1 миллиона.

На их основании ученые пытались определить популярность исторической личности или события, которым посвящен хэштег, а заодно привязать его к временной школе. Все относительные временные выражения были конвертированы в явные.

Какие даты интересуют пользователей

В первую очередь анализировались годы и исторические периоды, которые чаще всего интересуют пользователей. Выяснилось, что наибольший интерес представляют события сравнительно недавнего прошлого, произошедшие за последние 50 лет. Исключениями являются всего три даты:
• 1916 год — Верденская мясорубка;
• 1941 — вторжение Германии в СССР в июне, атака Японии на Перл-Харбор и вступление США в войну в декабре;
• 1945 — окончание второй мировой войны.

Больше всего твитов и ретвитов посвящено событиям 2016 года: выборам президента США и столетию событий Первой Мировой войны — битве при Вердене, битве на Сомме и Пасхальному восстанию в Дублине.

Какие субъекты истории интересуют пользователей

Все субъекты были разделены на пять категорий: «человек», «группа», «место», «событие» и «другое». Среди 30 самых популярных исторических субъектов — 22 географических наименования, два события и три исторических личности. Однако, несмотря на то, что больше всего упоминаются различные места, чаще всего употребляются исторические персоналии.

Например, с выборами 2016 года в Twitter связано всего одно место действия — Соединенные Штаты, а упоминаемых личностей как минимум пять: Дональд Трамп, Барак Обама, Билл Клинтон, Джордж Вашингтон и Авраам Линкольн.

Какой хештэг встречается чаще всего

Одним из самых популярных оказался хештэг #throwbackThursday (#TBT) — он задает тренд, в рамках которого пользователи публикуют картинки, вызывающие у них ностальгию. Но такая его популярность прослеживается лишь в рамках третьей категории, где считаются непосредственно количество пользователей, поставивших его под своими публикациями.

В оригинальных твитах и ретвитах чаще всего встречаются хэштеги #onthisday или #otd. Эти хештэги чаще всего используются специалистами-историками или на тематических страницах, а трендовый #TBT — в личных блогах.

Хэштеги также разделили на несколько тематических групп: «общеисторические» (#history, #historyfacts), с ярко выраженной национальной принадлежностью (#ancientgreece), тематическая история (#sportshistory), памятные (#onthisday, #weremember), событийные (#wwi, #sevenyearswar) и персональные (#stalin, #napoleon). Тематическая и «общеисторическая» категории составляют почти половину от общего числа твитов (29,4% и 22,4%), а следом с небольшим отрывом следуют памятные хэштеги (20,6%).

Больше подробностей, подтвержденных графиками и диаграммами, — в нашей статье: https://sysblok.ru/history/ot-verdena-do-hirosimy-ot-gitlera-do-trampa-kak-ustroena-kollektivnaja-pamjat-v-twitter/

Мария Черных
​​Эрмитаж онлайн: как служебный музейный каталог становится доступным для всех
#digitalheritage #arts

Единая система учета экспонатов Эрмитажа была создана еще в первой половине 20-го века. Однако до недавнего времени каталоги были доступны только «избранным» — музейным сотрудникам и профессиональным исследователям, — а пользоваться ими было крайне сложно.

Сейчас Эрмитаж постепенно переносит всю свою экспозицию в онлайн. Уже оцифрована примерно 1/10 всей коллекции, то есть около 400 тысяч экспонатов.

Сотрудники Эрмитажа параллельно развивают два проекта. Первый будет больше интересен туристам, а второй — специалистам. Подробнее о цифровой трансформации музеев России можно узнать из нашего интервью с Владимиром Определеновым.

Проект «В фокусе»

На сайте проекта «В фокусе» пока доступно всего 53 экспоната. Зато про каждый из них снято видео, в котором об экспонате рассказывают сами хранители и заведующие отделами, что гарантирует качество и достоверность информации. Среди видео-экскурсий есть короткие, которые длятся несколько минут, а есть — полноценные получасовые лекции.

На сайте представлены не только всем знакомые «обязательные для осмотра» экспонаты, но и менее известные произведения искусства и даже некоторые предметы интерьера. Для примера ниже прикрепляем видео с рассказом про «Мадонну с Младенцем» Леонардо да Винчи.

На все экспонаты можно посмотреть с хорошего ракурса, что затруднительно сделать в реальности из-за толп туристов. Также есть обзоры некоторых выставок и работает поиск по сайту, который позволяет сгруппировать объекты по времени их создания, по тематике и др.

Онлайн-коллекция Эрмитажа

Этот электронный каталог полезен тем, кто занимается искусством или историей профессионально. В онлайн-коллекции есть живопись, скульптура, нумизматика, археологические находки и другие экспонаты. Однако, так как на сайте сотни тысяч оцифрованных предметов, для всех экспонатов указана только самая ключевая информация.

Чтобы что-то найти, нужно воспользоваться расширенным поиском. Можно выбрать школу, к которой принадлежал автор работ, или организацию — например, продукция завода в Гусь-Хрустальном. Есть возможность сгруппировать экспонаты по коллекциям или выставкам. Также, можно выбрать конкретный объект, чтобы посмотреть детали.

Потенциально оба проекта могут развиваться до бесконечности, а точнее — до тех пор, пока не будут оцифрованы абсолютно все экспонаты. Ведь у каждого предмета есть своя интересная история, которую было бы здорово рассказать всему миру.

https://sysblok.ru/digital-heritage/kak-shodit-v-jermitazh-onlajn/

Светлана Филатова
​​Как лингвисты делают искусственный интеллект, а компьютер решает ЕГЭ
Второй выпуск подкаста Неопознанный Искусственный Интеллект — с Татьяной Шавриной
#podcasts

В студии подкаста Неопознанный Искусственный Интеллект — Татьяна Шаврина. Лингвист, программист, руководитель команды по обработке естественного языка и искусственному интеллекту в Сбере, соорганизатор AI Journey.

«Лингвистика для нас — центр всего. И программирование, и когнитивные науки, и гуманитарные вещи — все соединяются в ней».

О чем мы поговорили с Татьяной

• Как разработка искусственного интеллекта объединила лингвистику, программирование и когнитивные науки
• Что должен уметь «сильный ИИ» и как его построить
• Должен ли ИИ быть устроен как человеческий мозг
• Как должен быть устроен тест на интеллектуальность
• Чем растущий ребенок отличается от обучающейся нейросети
• Как нейросети решают ЕГЭ
• Как устроен русский SuperGLUE: головоломки для ИИ
• Что такое колониализм в ИИ
• Кого заменят роботы и какие статьи об ИИ стоит почитать

Хайлайты выпуска

1. Каковы критерии «сильного» ИИ

• Мультимодальность: он работает одновременно с информацией из разных источников — текстом, картинками, звуками, — и обрабатывает это все вместе.
• Мультидоменность: он одинаково хорошо работает в разных предметных областях и способен разбираться в новых.
• Адаптивность: он может сам приобретать новые навыки, причем на небольшом количестве примеров — на таком же, как это мог бы сделать человек, или даже меньше.

2. Как оценивают работу новых нейросетей и сравнивают их друг с другом

Когда выходит новая модель, ее оценивают по тому, как она справляется с решением benchmark’ов. Benchmark подразумевает, что у нас есть несколько типов заданий, у каждого из которых есть свой набор данных — в нем тренировочная выборка и тестовая. Тестовая выборка может быть открыта, а может быть скрыта. После оценки нейросеть добавляют в рейтинг, чтобы увидеть, где произошел прорыв, а где — просадка по качеству.

3. Как проявляется колониализм в цифровой среде

Происходящее в data science и вообще в интернет коммуникациях можно объяснить колониальной экономикой и политикой. Кто первый построил новую инфраструктуру, тот выкачивает все дорогостоящие данные, устанавливает свои правила и облагает остальных пользователей налогами.

Где нас слушать или читать

Слушайте выпуск на Яндекс. Музыке, Apple Podcasts, Google Podcasts или в подкастах ВК.

Расшифровка и дополнительные материалы — на странице подкаста на сайте «Системного Блока».
​​Как работает GPT-2 и в чем его особенности
#nlp #knowhow

GPT-2 — нейросеть, которая способна генерировать образцы синтетического текста с вполне логичным повествованием, если задать ей любое начало. Модель учитывает стиль и содержание заданного ей фрагмента и уже на их основании создает свое продолжение истории. На момент релиза в ней было рекордное число параметров — 1,5 млрд против обычных 100–300 млн.

История создания и особенности GPT-2

Первая версия GPT (Generative Pre-trained Transformer) от OpenAI появилась еще летом 2018 года. Ее обучали на выборке текстов из Wikipedia и литературных произведений. Однако выяснилось, что нейросеть быстрее учится понимать естественную речь на основе простых постов в интернете. Поэтому в 2019 году OpenAI обучили GPT на больших объемах текстов — 8 млн. страниц из интернета. Новая версия нейросети получила название GPT-2.

Особенность GPT-2 в том, что она сразу — без дообучения — показала отличные результаты, близкие к state-of-the-art. Сразу после обучения нейросеть уже готова сгенерировать текст со всеми логическими вставками: повторное упоминание имен героев, цитаты, отсылки, выдержка одного стиля на протяжении всего текста, связанное повествование.

Таким образом GPT-2 могла понять суть задания примерно как человек — просто по его виду: если есть пропуски — дописать их, задают вопрос — попытаться ответить и т. д.

Что умеет GPT-2

Помимо простого создания текстов, модель можно использовать для следующих целей:

1. Краткий пересказ текста или обобщение.

В качестве входных данных нужно подать не просто фрагмент, а целый текст, состоящий из хотя бы пары абзацев (но лучше — страниц). Если в конце добавить «TL;DR», модель выдаст краткое содержание рассказа.

2. Ответы на вопросы исходя из содержания текста.

На входе подается несколько примеров в виде «Вопрос-Ответ», в конце же дается реальный вопрос, на который нейросеть выдает по тому же макету ответ.

3. Перевод текстов.

Механизм работы с переводами похож на механизм работы с ответами на вопросы. Главное — подать модели правильное начало, то есть нужную структуру текста. В оригинале GPT-2 подавали фрагменты в виде «hello- = привет» и так далее, используя английский и французский. В итоге, когда в конце была фраза «cat = …», нейросеть, следуя логике, выдала «кошку».

О том, как обучали GPT-2 и почему OpenAI предоставили доступ к его полной версии только через год после создания — читайте в нашей статье: https://sysblok.ru/knowhow/kak-rabotaet-gpt-2-i-v-chem-ego-osobennosti/

Камилла Кубелекова, Владимир Селеверстов
​​Как обучать датасаентистов, играя в шляпу
Третий выпуск подкаста Неопознанный Искусственный Интеллект — с Виктором Кантором
#podcasts

В студии подкаста — Виктор Кантор. Виктор руководит Data Science в МТС и преподает машинное обучение. Виктор — соавтор популярной специализации по машинному обучению на Coursera, преподает в вузах и на офлайн-курсах по машинному обучению «Data Mining in Action».

Мы пригласили его в наш подкаст, чтобы обсудить преподавание Data Science, развитие технологий машинного обучения и, конечно, будущее искусственного интеллекта.

О чем мы поговорили с Виктором

• Как обучать крутых датасаентистов;
• Как распознать инфоцыган, продающих некачественное образование
• Чем отличаются Data Mining, машинное обучение и Data Science;
• Возможен ли сильный искусственный интеллект;
• Что мешает преодолеть «узость» ИИ и так ли универсален человеческий мозг;
• Как научить робота ловить рыбу и будем ли мы программировать на естественном языке;
• Как стать крутым преподавателем Data Science и чем помогает игра в шляпу;
• Как запускать космические корабли в далеком будущем;
• Кто самый крутой русский датасаентист и о чем говорить с искусственным интеллектом.

Хайлайты выпуска

1. Как развивать General Artificial Intelligence

Наука не развивается по плану: для того, чтобы развивать General Artificial Intelligence, не обязательно верить, что-то получится, и не обязательно знать заранее, что мы воспринимаем как GAI. Можно просто решать больше задач, которые сейчас кажутся неподъемными, и постепенно приходить в ту точку, когда то, что получится, люди назовут General Artificial Intelligence.

То есть постепенно мы будем закрывать все больше узких задач, и постепенно у нас будут появляться алгоритмы, которые будут такое количество узких задач решать, что нам уже не так принципиально будет, что все они такие узкие.

2. На каком языке мы общаемся с ИИ

Чтобы роботы выполняли наши задачи, нам нужно уметь формулировать их так, чтобы их можно было выполнить в точности. На естественном языке можно выразить любой, доступный человеку смысл, но и интерпретировать его можно по-разному. General AI, наверное, должен сам уметь что-то делать с недостаточно точно сформулированной задачей.

Однако узкие ИИ так не умеют, поэтому мы пока перебираем разные возможные языки общения. Один из языков общения — обучающая выборка, примеры. ИИ учится на них, а мы ему говорим, что надо оптимизировать. Другой язык общения — среда, которая позволяет ИИ действовать определенным образом и периодически выдает ему фидбек, вознаграждает за какие-то действия. Это называется Reinforcement Learning, или обучение с подкреплением.

3. Что важно для преподавателя в Data Science

Будучи преподавателем, главное, себя не обманывать — понимать, какой у тебя есть реальный опыт и стараться учить в рамках него, а не пытаться себя выдавать за того, кем ты не являешься.

К преподаванию мотивирует осознание того, что ты вроде бы приходишь просто лекцию читать, но если делаешь это действительно хорошо — получается, что на самом деле в будущем запускаешь корабли в космос. Потому что сформированные с твоей помощью крутые специалисты и будут менять наше будущее.

Где нас слушать или читать

Слушайте выпуск на Яндекс. Музыке, Apple Podcasts, Google Podcasts или в подкастах ВК.

Расшифровка и дополнительные материалы — на странице подкаста на сайте «Системного Блока».
​​Во что верят IT-евангелисты
#society

Твоя вера должна быть сильна: рассказываем, кто такой IT-евангелист, что он должен уметь и сколько может зарабатывать. Эта статья — первая в серии «Новый рынок труда», где мы обсуждаем профессии будущего.

IT-евангелизм — сочетание маркетинга и веры в технологии, которое помогает продвигать продукт. IT-евангелисты любят и понимают продукт, могут влюбить в него других, однако не стремятся создать его идеальный образ. Поэтому найм харизматичного сотрудника может сильно помочь компании в продвижении и развитии своего продукта.

Рынок IT-евангелизма

Профессия IT-евангелист (technology evangelist) распространена в Америке с конца 20 века. С развитием и распространение стартапов навыки евангелизма становятся обязательными для каждого члена IT-проекта. Диаграммы с количеством вакансий и размером зарплат в разных странах прикрепляем ниже.

В России IT-евангелизм распространяется с 2011 года, но до сих пор звучит экзотично. Евангелисты востребованы только для компаний мирового масштаба, а региональные проекты обходятся без них. Основатели порой сами выступают в роли евангелистов, ведь именно они и есть истинные верующие в свой продукт, способный помочь человечеству.

По-русски должность IT-евангелиста называется «эксперт по стратегическим технологиям». Самые известные — Георгий Бакунов (Яндекс), Петр Гоголоев (MyTona), Михаил Черномордиков, Андрей Ивашенцев и Дмитрий Сошников (Microsoft). Все они активно популяризируют как свои продукты, так и саму профессию IT-евангелист.

Первый IT-евангелист

Первым IT-евангелистом считается Гай Кавасаки — человек, который научил весь мир пользоваться мышью. Его нанял маркетолог Майк Бойх из Apple, который предложил концепцию «software evangelist», чтобы завоевать рынок софта.

В то время — 1980-ые года — Apple не входило даже в топ-5 IT-компаний. Компьютеры Apple II нашли свою нишу в игровой и образовательной сфере, а Apple III быстро ушел в небытие. Apple сложно было конкурировать в сфере продаж, поэтому они выбрали сферу идей.

Кавасаки распространяет новую идеологию Apple на всех сотрудников компании и разработчиков программ. Так, в 1984 году выходит Macintosh, который добивается успеха благодаря первому применению мыши, графического интерфейса, большого количества софта, а главное — рекламной кампании и первой презентации Macintosh от Стива Джобса. Конкурируя с IBM «на словах», яблочные евангелисты распространили Macintosh во все сферы жизни.

Гай Кавасаки написал множество книг по IT-евангелизму. В работе «The Macintosh way» он сравнивает путь IT-евангелиста с путем самурая. Такой путь можно назвать «Мак-до»: «Mac» от Macintosh и «До» от японского «путь». Работа описывает не психологию или философию, а практику жизни, которая позволит незнающему человеку достичь духовного совершенствования.

Советы от Гая Кавасаки о том, как надо читать проповеди о своем продукте, — в нашей статье: https://sysblok.ru/permhse/vo-chto-verjat-it-evangelisty/

Никита Маткин,
социально-гуманитарный факультет НИУ ВШЭ
2020 — год комиксов во Франции. По этому случаю Международный центр комиксов и изображений и Национальная библиотека Франции публикуют подборки, посвященные комиксам и их истории. В декабре Gallica делится с читателями праздничными этикетками с красочными эпизодами из комиксов. Опубликованные этикетки можно распечатать, чтобы украсить ими открытки или подарки.

Самые ранние комиксы серии — выпуски The New York Herald за 1904 год. В первом номере «Buster Brown in a peck of trouble again» герой открывает бутылку с шампанским и заливает им весь дом, после чего призывает остальных не открывать ничего, кроме книг и банковского счета. В рождественской истории «Buster Brown’s X-Mas» школьник крадёт у Санты мешок с подарками, чтобы на следующий день раздать их бедным детям.

А выпуск от 1906 года «Little Nemo in Slumberland» рассказывает историю сна маленького мальчика: принцесса загадывает встречу с Немо — летающая машина Санты взрывается в небе — подарки разлетаются по всему миру.

София Емец

#visualheritage