Как работают трансформеры — крутейшие нейросети наших дней
#knowhow
Трансформер — самая модная сегодня нейросетевая архитектура. Она появилась в 2017 и перевернула всю обработку языка машинами. Мы расскажем о структуре трансформера без кода — чтобы потом при взгляде на код вы могли понять, что он делает.
Трансформер придумали ученые из Google Research и Google Brain. Целью исследований была обработка естественного языка, но позже другие авторы адаптировали трансформерную архитектуру под любые последовательности. Сегодня если нейросеть распознает или генерирует текст, музыку или голос, скорее всего, где-то замешан трансформер.
В первой части нашей статьи
• Расскажем, что такое «внимание на себя» (self-attention) и зачем нужна нейросеть с прямой связью
• Введем новые термины, которые придумали изобретатели трансформера
• Расскажем подробнее о dot product attention, «скалярном внимании», (обычно это название не переводят).
• Расскажем о том, как из «скалярного внимания» сделать «взвешенное скалярное внимание»
• Объясним, зачем одну и ту же операцию «взвешенного скалярного внимания» повторять несколько раз с разными настройками: так получится описание «multi-head attention» — «многоголового внимания». Именно этот механизм задействован в нейросети-трансформере.
https://sysblok.ru/knowhow/kak-rabotajut-transformery-krutejshie-nejroseti-nashih-dnej/
Во второй части нашей статьи
• Добавим нормализацию;
• Добавим позиционное кодирование (перед самым первым слоем энкодера);
• Разберем устройство декодера, его отличия от энкодера;
• Сравним внимание «на себя» и не на себя;
• Объясним, что является результатом работы нейросети;
• Расскажем, что такое маскировка значений и зачем она нужна;
https://sysblok.ru/knowhow/nejroseti-transformery-iznutri-kak-rabotaet-dekoder/
Владимир Селеверстов
#knowhow
Трансформер — самая модная сегодня нейросетевая архитектура. Она появилась в 2017 и перевернула всю обработку языка машинами. Мы расскажем о структуре трансформера без кода — чтобы потом при взгляде на код вы могли понять, что он делает.
Трансформер придумали ученые из Google Research и Google Brain. Целью исследований была обработка естественного языка, но позже другие авторы адаптировали трансформерную архитектуру под любые последовательности. Сегодня если нейросеть распознает или генерирует текст, музыку или голос, скорее всего, где-то замешан трансформер.
В первой части нашей статьи
• Расскажем, что такое «внимание на себя» (self-attention) и зачем нужна нейросеть с прямой связью
• Введем новые термины, которые придумали изобретатели трансформера
• Расскажем подробнее о dot product attention, «скалярном внимании», (обычно это название не переводят).
• Расскажем о том, как из «скалярного внимания» сделать «взвешенное скалярное внимание»
• Объясним, зачем одну и ту же операцию «взвешенного скалярного внимания» повторять несколько раз с разными настройками: так получится описание «multi-head attention» — «многоголового внимания». Именно этот механизм задействован в нейросети-трансформере.
https://sysblok.ru/knowhow/kak-rabotajut-transformery-krutejshie-nejroseti-nashih-dnej/
Во второй части нашей статьи
• Добавим нормализацию;
• Добавим позиционное кодирование (перед самым первым слоем энкодера);
• Разберем устройство декодера, его отличия от энкодера;
• Сравним внимание «на себя» и не на себя;
• Объясним, что является результатом работы нейросети;
• Расскажем, что такое маскировка значений и зачем она нужна;
https://sysblok.ru/knowhow/nejroseti-transformery-iznutri-kak-rabotaet-dekoder/
Владимир Селеверстов
«Системный Блокъ» запускает подкаст
#podcasts
Наш подкаст — об искусственном интеллекте. Сегодня словосочетание «искусственный интеллект» звучит отовсюду, но не значит примерно ничего. Поэтому наш подкаст называется «неопознанный искусственный интеллект», сокращенно «НИИ». Мы хотим разобраться, что называют искусственным интеллектом сегодня, как работают эти технологии, есть ли там настоящая «интеллектуальность» и появится ли она в будущем.
К нам в «НИИ» приходят люди, причастные к созданию искусственного интеллекта, — программисты, инженеры, лингвисты, математики, а также специалисты и ученые из других областей.
Наши гости
• Татьяна Шаврина, руководитель команды, которая занимается обработкой языка и искусственным интеллектом в Сбере;
• Константин Воронцов, профессор Вышки, профессор МФТИ, профессор РАН;
• Виктор Кантор, chief data scientist в МТС;
• Дмитрий Ветров, профессор, исследователь факультета компьютерных наук Высшей школы экономики
и другие эксперты в области машинного обучения, анализа данных и искусственного интеллекта.
Что мы обсуждаем с гостями
• где потолок развития нейросетей;
• что умеют GPT-2 и GPT-3;
• как понять, что машина стала разумной;
• нужны ли лингвисты для создания «сильного» ИИ;
• и не уничтожит ли такой ИИ человеческую цивилизацию💥
Где нас слушать
Первый выпуск подкаста «НИИ» мы выложим 7 декабря. А пока послушайте наш 3-минутный трейлер и подпишитесь на нас в Яндекс.Музыке или Apple Podcasts. Есть мы и в ВК.
А еще загляните на страничку «НИИ» на сайте «Системного Блока» — там есть дополнительные материалы для всех, кому интересны ИИ, data science и машинное обучение.
#podcasts
Наш подкаст — об искусственном интеллекте. Сегодня словосочетание «искусственный интеллект» звучит отовсюду, но не значит примерно ничего. Поэтому наш подкаст называется «неопознанный искусственный интеллект», сокращенно «НИИ». Мы хотим разобраться, что называют искусственным интеллектом сегодня, как работают эти технологии, есть ли там настоящая «интеллектуальность» и появится ли она в будущем.
К нам в «НИИ» приходят люди, причастные к созданию искусственного интеллекта, — программисты, инженеры, лингвисты, математики, а также специалисты и ученые из других областей.
Наши гости
• Татьяна Шаврина, руководитель команды, которая занимается обработкой языка и искусственным интеллектом в Сбере;
• Константин Воронцов, профессор Вышки, профессор МФТИ, профессор РАН;
• Виктор Кантор, chief data scientist в МТС;
• Дмитрий Ветров, профессор, исследователь факультета компьютерных наук Высшей школы экономики
и другие эксперты в области машинного обучения, анализа данных и искусственного интеллекта.
Что мы обсуждаем с гостями
• где потолок развития нейросетей;
• что умеют GPT-2 и GPT-3;
• как понять, что машина стала разумной;
• нужны ли лингвисты для создания «сильного» ИИ;
• и не уничтожит ли такой ИИ человеческую цивилизацию💥
Где нас слушать
Первый выпуск подкаста «НИИ» мы выложим 7 декабря. А пока послушайте наш 3-минутный трейлер и подпишитесь на нас в Яндекс.Музыке или Apple Podcasts. Есть мы и в ВК.
А еще загляните на страничку «НИИ» на сайте «Системного Блока» — там есть дополнительные материалы для всех, кому интересны ИИ, data science и машинное обучение.
Яндекс Музыка
Неопознанный Искусственный Интеллект (НИИ)
НИИ — подкаст про искусственный интеллект от издания «Системный Блокъ».
К нам в гости приходят ... • Подкаст • 3613 подписчиков
К нам в гости приходят ... • Подкаст • 3613 подписчиков
Интерактивная минералогия: как старинные рисунки камней стали цифровым проектом
#digitalheritage
Проект «Британская и экзотическая минералогия» — это коллаж из 718 изображений различных минералов мира. Ранее они входили в 7-томный сборник натуралиста, иллюстратора и минералога Джеймса Сауерби, созданный им в начале 19 века. Он создал наиболее точные и подробные рисунки известных полезных ископаемых и расположил их по цвету.
Исследователь собрал изображения в 2 серии из 718 пластин. После он поделил их на 5 томов о минералах Великобритании и 2 издания об экзотической минералогии. Работы ученого до сих пор считаются одними из лучших в этой области.
Кто и зачем создал интерактивный коллаж
В конце весны 2020 года трудом Сауерби заинтересовался веб-дизайнер Николас Ружо. Для этого художник данных обратился к отсканированным изданиям. Ружо «очистил» и восстановил первоначальную яркость и даты изображений. Все материалы по полезным ископаемым состояли из 718 ключевых цветов и 2242 рисунков.
Ружо хотел создать не репродукцию, а «уникальный взгляд на старую тему». В итоге у Николаса получился интерактивный коллаж. К каждому ископаемому прилагается подробное описание, список имен исследователей, характеристики и детали классификации.
Как Ружо создавал коллаж
Из-за ограничений по сборке, упаковке и сохранению размера картинок, Ружо обрабатывал иллюстрации блоками по 10 изображений и так перемещал их в редактор. Затем он отсортировал все цвета ископаемых по оттенку и разделил их на равные группы, которые сложились в столбцы.
Столбцы дизайнер разложил по яркости, чтобы расположить по ним восстановленные иллюстрации. Все они упаковывались с помощью программы InDesign в специальную сетку в соответствующие места. На видео можно посмотреть, как происходила расстановка первых 400 объектов.
На этом Николас не остановился: он сделал коллаж интерактивным, добавил плитки для масштабирования и горячие точки. Изображения стали кликабельными, у них появились характеристики и описания. Последние Ружо скопировал с оригинальных архивных иллюстраций и переформатировал.
Сам проект, по его словам, занял 4 месяца. Время подготовки финального коллажа составило 4,5 часа ручного перемещения элементов. Ниже прикрепляем финальную версию постера.
На странице проекта есть краткая инструкция о том, как находить данные и перемещаться по коллажу. При выборе объекта пользователь видит специальное окно с информацией об ископаемом. Справка содержит увеличенное изображение минерала, его синонимичные названия, описание его форм и физических характеристик.
Также, на сайте проекта можно заказать пазл или постер с коллажом.
https://sysblok.ru/digital-heritage/interaktivnaja-mineralogija-kak-starinnye-risunki-kamnej-stali-cifrovym-proektom/
Варвара Гузий
#digitalheritage
Проект «Британская и экзотическая минералогия» — это коллаж из 718 изображений различных минералов мира. Ранее они входили в 7-томный сборник натуралиста, иллюстратора и минералога Джеймса Сауерби, созданный им в начале 19 века. Он создал наиболее точные и подробные рисунки известных полезных ископаемых и расположил их по цвету.
Исследователь собрал изображения в 2 серии из 718 пластин. После он поделил их на 5 томов о минералах Великобритании и 2 издания об экзотической минералогии. Работы ученого до сих пор считаются одними из лучших в этой области.
Кто и зачем создал интерактивный коллаж
В конце весны 2020 года трудом Сауерби заинтересовался веб-дизайнер Николас Ружо. Для этого художник данных обратился к отсканированным изданиям. Ружо «очистил» и восстановил первоначальную яркость и даты изображений. Все материалы по полезным ископаемым состояли из 718 ключевых цветов и 2242 рисунков.
Ружо хотел создать не репродукцию, а «уникальный взгляд на старую тему». В итоге у Николаса получился интерактивный коллаж. К каждому ископаемому прилагается подробное описание, список имен исследователей, характеристики и детали классификации.
Как Ружо создавал коллаж
Из-за ограничений по сборке, упаковке и сохранению размера картинок, Ружо обрабатывал иллюстрации блоками по 10 изображений и так перемещал их в редактор. Затем он отсортировал все цвета ископаемых по оттенку и разделил их на равные группы, которые сложились в столбцы.
Столбцы дизайнер разложил по яркости, чтобы расположить по ним восстановленные иллюстрации. Все они упаковывались с помощью программы InDesign в специальную сетку в соответствующие места. На видео можно посмотреть, как происходила расстановка первых 400 объектов.
На этом Николас не остановился: он сделал коллаж интерактивным, добавил плитки для масштабирования и горячие точки. Изображения стали кликабельными, у них появились характеристики и описания. Последние Ружо скопировал с оригинальных архивных иллюстраций и переформатировал.
Сам проект, по его словам, занял 4 месяца. Время подготовки финального коллажа составило 4,5 часа ручного перемещения элементов. Ниже прикрепляем финальную версию постера.
На странице проекта есть краткая инструкция о том, как находить данные и перемещаться по коллажу. При выборе объекта пользователь видит специальное окно с информацией об ископаемом. Справка содержит увеличенное изображение минерала, его синонимичные названия, описание его форм и физических характеристик.
Также, на сайте проекта можно заказать пазл или постер с коллажом.
https://sysblok.ru/digital-heritage/interaktivnaja-mineralogija-kak-starinnye-risunki-kamnej-stali-cifrovym-proektom/
Варвара Гузий
Первый выпуск подкаста НИИ: как прийти к «сильному» искусственному интеллекту 🤖
#podcasts
Темы первого выпуска
• Что может и чего не может современный «искусственный интеллект»
• Почему у нас нет универсальных роботов-помощников, подобных R2D2, JARVIS и C3PO
• В чем «узкий ИИ» (Narrow AI) еще бесконечно далек от человека
• Нужно ли моделировать ИИ на основе человеческого интеллекта и человеческого мозга
• Чем плох тест Тьюринга и какой тест позволил бы надежно определить интеллектуальность машины
• Почему подкаст называется «Неопознанный искусственный интеллект»
• И главное: что будет происходить в следующих выпусках, когда появятся гости
Хайлайты выпуска
1. Эпоха «узкого» ИИ
Мы живем в эпоху Narrow Artificial Intelligence или узкого искусственного интеллекта. Есть множество машин, которые умеют решать отдельные интеллектуальные задачи: Например, AlphaGo играет в Го, сверточная нейросеть в фотоприложении отличает кошечек от собачек, а антиблокировочная система в автомобиле управляет тормозами и понимает, когда их надо сжимать и разжимать — это тоже весьма интеллектуальная операция.
2. В чем проблема «узкого» ИИ
Узкие ИИ-системы неадаптивны — они не умеют приспосабливаться к разным задачам в процессе своей работы. Узкий ИИ противопоставляется общему или «сильному» ИИ — General Artificial Intelligence. «Сильный» ИИ должен приспосабливаться к новой среде и новым правилам, примерно как это делает человек. Но такого ИИ еще не существует.
3. Как тестировать ИИ на интеллектуальность
Тест Тьюринга слишком зависит от того, кто его проводит и какие вопросы он задает. Этот тест можно усложнить — например, не просто разговаривать с машиной, а пытаться научить ее играть в игру. Причем, любую — даже выдуманную на ходу. В этом суть «теста Старостина». Подробнее о тесте можно послушать в первом выпуске подкаста НИИ.
Где нас слушать или читать
Слушайте выпуск на Яндекс. Музыке, Apple Podcasts, Android Podcasts или в подкастах ВК.
Читайте нашу расшифровку, дополнительные материалы есть на страничке подкаста на сайте «Системного Блока».
#podcasts
Темы первого выпуска
• Что может и чего не может современный «искусственный интеллект»
• Почему у нас нет универсальных роботов-помощников, подобных R2D2, JARVIS и C3PO
• В чем «узкий ИИ» (Narrow AI) еще бесконечно далек от человека
• Нужно ли моделировать ИИ на основе человеческого интеллекта и человеческого мозга
• Чем плох тест Тьюринга и какой тест позволил бы надежно определить интеллектуальность машины
• Почему подкаст называется «Неопознанный искусственный интеллект»
• И главное: что будет происходить в следующих выпусках, когда появятся гости
Хайлайты выпуска
1. Эпоха «узкого» ИИ
Мы живем в эпоху Narrow Artificial Intelligence или узкого искусственного интеллекта. Есть множество машин, которые умеют решать отдельные интеллектуальные задачи: Например, AlphaGo играет в Го, сверточная нейросеть в фотоприложении отличает кошечек от собачек, а антиблокировочная система в автомобиле управляет тормозами и понимает, когда их надо сжимать и разжимать — это тоже весьма интеллектуальная операция.
2. В чем проблема «узкого» ИИ
Узкие ИИ-системы неадаптивны — они не умеют приспосабливаться к разным задачам в процессе своей работы. Узкий ИИ противопоставляется общему или «сильному» ИИ — General Artificial Intelligence. «Сильный» ИИ должен приспосабливаться к новой среде и новым правилам, примерно как это делает человек. Но такого ИИ еще не существует.
3. Как тестировать ИИ на интеллектуальность
Тест Тьюринга слишком зависит от того, кто его проводит и какие вопросы он задает. Этот тест можно усложнить — например, не просто разговаривать с машиной, а пытаться научить ее играть в игру. Причем, любую — даже выдуманную на ходу. В этом суть «теста Старостина». Подробнее о тесте можно послушать в первом выпуске подкаста НИИ.
Где нас слушать или читать
Слушайте выпуск на Яндекс. Музыке, Apple Podcasts, Android Podcasts или в подкастах ВК.
Читайте нашу расшифровку, дополнительные материалы есть на страничке подкаста на сайте «Системного Блока».
Как измеряют вес исторических событий и личностей в коллективной памяти общества
#history #digitalmemory
Есть исторические события, о которых помнят, думают и спорят миллионы людей. А есть такие, которые никому не интересны, и никакие государственные выходные вроде Дня народного единства этого не изменят.
Ученые из Люксембургского центра современной цифровой истории, Токийского столичного университета и Киотского университета решили исследовать, как пользователи Twitter относятся к истории и какие события и исторические личности для них являются ключевыми.
Сбор данных
Исследователи работали с англоязычными твитами за март 2016 — февраль 2017, отобранными по специальному списку хэштегов — от #onthisday до #HistoryTeacher. Твитов было собрано около 1 миллиона.
На их основании ученые пытались определить популярность исторической личности или события, которым посвящен хэштег, а заодно привязать его к временной школе. Все относительные временные выражения были конвертированы в явные.
Какие даты интересуют пользователей
В первую очередь анализировались годы и исторические периоды, которые чаще всего интересуют пользователей. Выяснилось, что наибольший интерес представляют события сравнительно недавнего прошлого, произошедшие за последние 50 лет. Исключениями являются всего три даты:
• 1916 год — Верденская мясорубка;
• 1941 — вторжение Германии в СССР в июне, атака Японии на Перл-Харбор и вступление США в войну в декабре;
• 1945 — окончание второй мировой войны.
Больше всего твитов и ретвитов посвящено событиям 2016 года: выборам президента США и столетию событий Первой Мировой войны — битве при Вердене, битве на Сомме и Пасхальному восстанию в Дублине.
Какие субъекты истории интересуют пользователей
Все субъекты были разделены на пять категорий: «человек», «группа», «место», «событие» и «другое». Среди 30 самых популярных исторических субъектов — 22 географических наименования, два события и три исторических личности. Однако, несмотря на то, что больше всего упоминаются различные места, чаще всего употребляются исторические персоналии.
Например, с выборами 2016 года в Twitter связано всего одно место действия — Соединенные Штаты, а упоминаемых личностей как минимум пять: Дональд Трамп, Барак Обама, Билл Клинтон, Джордж Вашингтон и Авраам Линкольн.
Какой хештэг встречается чаще всего
Одним из самых популярных оказался хештэг #throwbackThursday (#TBT) — он задает тренд, в рамках которого пользователи публикуют картинки, вызывающие у них ностальгию. Но такая его популярность прослеживается лишь в рамках третьей категории, где считаются непосредственно количество пользователей, поставивших его под своими публикациями.
В оригинальных твитах и ретвитах чаще всего встречаются хэштеги #onthisday или #otd. Эти хештэги чаще всего используются специалистами-историками или на тематических страницах, а трендовый #TBT — в личных блогах.
Хэштеги также разделили на несколько тематических групп: «общеисторические» (#history, #historyfacts), с ярко выраженной национальной принадлежностью (#ancientgreece), тематическая история (#sportshistory), памятные (#onthisday, #weremember), событийные (#wwi, #sevenyearswar) и персональные (#stalin, #napoleon). Тематическая и «общеисторическая» категории составляют почти половину от общего числа твитов (29,4% и 22,4%), а следом с небольшим отрывом следуют памятные хэштеги (20,6%).
Больше подробностей, подтвержденных графиками и диаграммами, — в нашей статье: https://sysblok.ru/history/ot-verdena-do-hirosimy-ot-gitlera-do-trampa-kak-ustroena-kollektivnaja-pamjat-v-twitter/
Мария Черных
#history #digitalmemory
Есть исторические события, о которых помнят, думают и спорят миллионы людей. А есть такие, которые никому не интересны, и никакие государственные выходные вроде Дня народного единства этого не изменят.
Ученые из Люксембургского центра современной цифровой истории, Токийского столичного университета и Киотского университета решили исследовать, как пользователи Twitter относятся к истории и какие события и исторические личности для них являются ключевыми.
Сбор данных
Исследователи работали с англоязычными твитами за март 2016 — февраль 2017, отобранными по специальному списку хэштегов — от #onthisday до #HistoryTeacher. Твитов было собрано около 1 миллиона.
На их основании ученые пытались определить популярность исторической личности или события, которым посвящен хэштег, а заодно привязать его к временной школе. Все относительные временные выражения были конвертированы в явные.
Какие даты интересуют пользователей
В первую очередь анализировались годы и исторические периоды, которые чаще всего интересуют пользователей. Выяснилось, что наибольший интерес представляют события сравнительно недавнего прошлого, произошедшие за последние 50 лет. Исключениями являются всего три даты:
• 1916 год — Верденская мясорубка;
• 1941 — вторжение Германии в СССР в июне, атака Японии на Перл-Харбор и вступление США в войну в декабре;
• 1945 — окончание второй мировой войны.
Больше всего твитов и ретвитов посвящено событиям 2016 года: выборам президента США и столетию событий Первой Мировой войны — битве при Вердене, битве на Сомме и Пасхальному восстанию в Дублине.
Какие субъекты истории интересуют пользователей
Все субъекты были разделены на пять категорий: «человек», «группа», «место», «событие» и «другое». Среди 30 самых популярных исторических субъектов — 22 географических наименования, два события и три исторических личности. Однако, несмотря на то, что больше всего упоминаются различные места, чаще всего употребляются исторические персоналии.
Например, с выборами 2016 года в Twitter связано всего одно место действия — Соединенные Штаты, а упоминаемых личностей как минимум пять: Дональд Трамп, Барак Обама, Билл Клинтон, Джордж Вашингтон и Авраам Линкольн.
Какой хештэг встречается чаще всего
Одним из самых популярных оказался хештэг #throwbackThursday (#TBT) — он задает тренд, в рамках которого пользователи публикуют картинки, вызывающие у них ностальгию. Но такая его популярность прослеживается лишь в рамках третьей категории, где считаются непосредственно количество пользователей, поставивших его под своими публикациями.
В оригинальных твитах и ретвитах чаще всего встречаются хэштеги #onthisday или #otd. Эти хештэги чаще всего используются специалистами-историками или на тематических страницах, а трендовый #TBT — в личных блогах.
Хэштеги также разделили на несколько тематических групп: «общеисторические» (#history, #historyfacts), с ярко выраженной национальной принадлежностью (#ancientgreece), тематическая история (#sportshistory), памятные (#onthisday, #weremember), событийные (#wwi, #sevenyearswar) и персональные (#stalin, #napoleon). Тематическая и «общеисторическая» категории составляют почти половину от общего числа твитов (29,4% и 22,4%), а следом с небольшим отрывом следуют памятные хэштеги (20,6%).
Больше подробностей, подтвержденных графиками и диаграммами, — в нашей статье: https://sysblok.ru/history/ot-verdena-do-hirosimy-ot-gitlera-do-trampa-kak-ustroena-kollektivnaja-pamjat-v-twitter/
Мария Черных
Эрмитаж онлайн: как служебный музейный каталог становится доступным для всех
#digitalheritage #arts
Единая система учета экспонатов Эрмитажа была создана еще в первой половине 20-го века. Однако до недавнего времени каталоги были доступны только «избранным» — музейным сотрудникам и профессиональным исследователям, — а пользоваться ими было крайне сложно.
Сейчас Эрмитаж постепенно переносит всю свою экспозицию в онлайн. Уже оцифрована примерно 1/10 всей коллекции, то есть около 400 тысяч экспонатов.
Сотрудники Эрмитажа параллельно развивают два проекта. Первый будет больше интересен туристам, а второй — специалистам. Подробнее о цифровой трансформации музеев России можно узнать из нашего интервью с Владимиром Определеновым.
Проект «В фокусе»
На сайте проекта «В фокусе» пока доступно всего 53 экспоната. Зато про каждый из них снято видео, в котором об экспонате рассказывают сами хранители и заведующие отделами, что гарантирует качество и достоверность информации. Среди видео-экскурсий есть короткие, которые длятся несколько минут, а есть — полноценные получасовые лекции.
На сайте представлены не только всем знакомые «обязательные для осмотра» экспонаты, но и менее известные произведения искусства и даже некоторые предметы интерьера. Для примера ниже прикрепляем видео с рассказом про «Мадонну с Младенцем» Леонардо да Винчи.
На все экспонаты можно посмотреть с хорошего ракурса, что затруднительно сделать в реальности из-за толп туристов. Также есть обзоры некоторых выставок и работает поиск по сайту, который позволяет сгруппировать объекты по времени их создания, по тематике и др.
Онлайн-коллекция Эрмитажа
Этот электронный каталог полезен тем, кто занимается искусством или историей профессионально. В онлайн-коллекции есть живопись, скульптура, нумизматика, археологические находки и другие экспонаты. Однако, так как на сайте сотни тысяч оцифрованных предметов, для всех экспонатов указана только самая ключевая информация.
Чтобы что-то найти, нужно воспользоваться расширенным поиском. Можно выбрать школу, к которой принадлежал автор работ, или организацию — например, продукция завода в Гусь-Хрустальном. Есть возможность сгруппировать экспонаты по коллекциям или выставкам. Также, можно выбрать конкретный объект, чтобы посмотреть детали.
Потенциально оба проекта могут развиваться до бесконечности, а точнее — до тех пор, пока не будут оцифрованы абсолютно все экспонаты. Ведь у каждого предмета есть своя интересная история, которую было бы здорово рассказать всему миру.
https://sysblok.ru/digital-heritage/kak-shodit-v-jermitazh-onlajn/
Светлана Филатова
#digitalheritage #arts
Единая система учета экспонатов Эрмитажа была создана еще в первой половине 20-го века. Однако до недавнего времени каталоги были доступны только «избранным» — музейным сотрудникам и профессиональным исследователям, — а пользоваться ими было крайне сложно.
Сейчас Эрмитаж постепенно переносит всю свою экспозицию в онлайн. Уже оцифрована примерно 1/10 всей коллекции, то есть около 400 тысяч экспонатов.
Сотрудники Эрмитажа параллельно развивают два проекта. Первый будет больше интересен туристам, а второй — специалистам. Подробнее о цифровой трансформации музеев России можно узнать из нашего интервью с Владимиром Определеновым.
Проект «В фокусе»
На сайте проекта «В фокусе» пока доступно всего 53 экспоната. Зато про каждый из них снято видео, в котором об экспонате рассказывают сами хранители и заведующие отделами, что гарантирует качество и достоверность информации. Среди видео-экскурсий есть короткие, которые длятся несколько минут, а есть — полноценные получасовые лекции.
На сайте представлены не только всем знакомые «обязательные для осмотра» экспонаты, но и менее известные произведения искусства и даже некоторые предметы интерьера. Для примера ниже прикрепляем видео с рассказом про «Мадонну с Младенцем» Леонардо да Винчи.
На все экспонаты можно посмотреть с хорошего ракурса, что затруднительно сделать в реальности из-за толп туристов. Также есть обзоры некоторых выставок и работает поиск по сайту, который позволяет сгруппировать объекты по времени их создания, по тематике и др.
Онлайн-коллекция Эрмитажа
Этот электронный каталог полезен тем, кто занимается искусством или историей профессионально. В онлайн-коллекции есть живопись, скульптура, нумизматика, археологические находки и другие экспонаты. Однако, так как на сайте сотни тысяч оцифрованных предметов, для всех экспонатов указана только самая ключевая информация.
Чтобы что-то найти, нужно воспользоваться расширенным поиском. Можно выбрать школу, к которой принадлежал автор работ, или организацию — например, продукция завода в Гусь-Хрустальном. Есть возможность сгруппировать экспонаты по коллекциям или выставкам. Также, можно выбрать конкретный объект, чтобы посмотреть детали.
Потенциально оба проекта могут развиваться до бесконечности, а точнее — до тех пор, пока не будут оцифрованы абсолютно все экспонаты. Ведь у каждого предмета есть своя интересная история, которую было бы здорово рассказать всему миру.
https://sysblok.ru/digital-heritage/kak-shodit-v-jermitazh-onlajn/
Светлана Филатова
YouTube
Мадонна с Младенцем. Леонардо да Винчи
Одно из немногих подлинных произведений Леонардо да Винчи и безусловный шедевр итальянского Возрождения, картина «Мадонна с Младенцем» («Мадонна с цветком») была написана Леонардо в 1478–1480 гг. во Флоренции и считается одной из первых самостоятельных работ…
Как лингвисты делают искусственный интеллект, а компьютер решает ЕГЭ
Второй выпуск подкаста Неопознанный Искусственный Интеллект — с Татьяной Шавриной
#podcasts
В студии подкаста Неопознанный Искусственный Интеллект — Татьяна Шаврина. Лингвист, программист, руководитель команды по обработке естественного языка и искусственному интеллекту в Сбере, соорганизатор AI Journey.
«Лингвистика для нас — центр всего. И программирование, и когнитивные науки, и гуманитарные вещи — все соединяются в ней».
О чем мы поговорили с Татьяной
• Как разработка искусственного интеллекта объединила лингвистику, программирование и когнитивные науки
• Что должен уметь «сильный ИИ» и как его построить
• Должен ли ИИ быть устроен как человеческий мозг
• Как должен быть устроен тест на интеллектуальность
• Чем растущий ребенок отличается от обучающейся нейросети
• Как нейросети решают ЕГЭ
• Как устроен русский SuperGLUE: головоломки для ИИ
• Что такое колониализм в ИИ
• Кого заменят роботы и какие статьи об ИИ стоит почитать
Хайлайты выпуска
1. Каковы критерии «сильного» ИИ
• Мультимодальность: он работает одновременно с информацией из разных источников — текстом, картинками, звуками, — и обрабатывает это все вместе.
• Мультидоменность: он одинаково хорошо работает в разных предметных областях и способен разбираться в новых.
• Адаптивность: он может сам приобретать новые навыки, причем на небольшом количестве примеров — на таком же, как это мог бы сделать человек, или даже меньше.
2. Как оценивают работу новых нейросетей и сравнивают их друг с другом
Когда выходит новая модель, ее оценивают по тому, как она справляется с решением benchmark’ов. Benchmark подразумевает, что у нас есть несколько типов заданий, у каждого из которых есть свой набор данных — в нем тренировочная выборка и тестовая. Тестовая выборка может быть открыта, а может быть скрыта. После оценки нейросеть добавляют в рейтинг, чтобы увидеть, где произошел прорыв, а где — просадка по качеству.
3. Как проявляется колониализм в цифровой среде
Происходящее в data science и вообще в интернет коммуникациях можно объяснить колониальной экономикой и политикой. Кто первый построил новую инфраструктуру, тот выкачивает все дорогостоящие данные, устанавливает свои правила и облагает остальных пользователей налогами.
Где нас слушать или читать
Слушайте выпуск на Яндекс. Музыке, Apple Podcasts, Google Podcasts или в подкастах ВК.
Расшифровка и дополнительные материалы — на странице подкаста на сайте «Системного Блока».
Второй выпуск подкаста Неопознанный Искусственный Интеллект — с Татьяной Шавриной
#podcasts
В студии подкаста Неопознанный Искусственный Интеллект — Татьяна Шаврина. Лингвист, программист, руководитель команды по обработке естественного языка и искусственному интеллекту в Сбере, соорганизатор AI Journey.
«Лингвистика для нас — центр всего. И программирование, и когнитивные науки, и гуманитарные вещи — все соединяются в ней».
О чем мы поговорили с Татьяной
• Как разработка искусственного интеллекта объединила лингвистику, программирование и когнитивные науки
• Что должен уметь «сильный ИИ» и как его построить
• Должен ли ИИ быть устроен как человеческий мозг
• Как должен быть устроен тест на интеллектуальность
• Чем растущий ребенок отличается от обучающейся нейросети
• Как нейросети решают ЕГЭ
• Как устроен русский SuperGLUE: головоломки для ИИ
• Что такое колониализм в ИИ
• Кого заменят роботы и какие статьи об ИИ стоит почитать
Хайлайты выпуска
1. Каковы критерии «сильного» ИИ
• Мультимодальность: он работает одновременно с информацией из разных источников — текстом, картинками, звуками, — и обрабатывает это все вместе.
• Мультидоменность: он одинаково хорошо работает в разных предметных областях и способен разбираться в новых.
• Адаптивность: он может сам приобретать новые навыки, причем на небольшом количестве примеров — на таком же, как это мог бы сделать человек, или даже меньше.
2. Как оценивают работу новых нейросетей и сравнивают их друг с другом
Когда выходит новая модель, ее оценивают по тому, как она справляется с решением benchmark’ов. Benchmark подразумевает, что у нас есть несколько типов заданий, у каждого из которых есть свой набор данных — в нем тренировочная выборка и тестовая. Тестовая выборка может быть открыта, а может быть скрыта. После оценки нейросеть добавляют в рейтинг, чтобы увидеть, где произошел прорыв, а где — просадка по качеству.
3. Как проявляется колониализм в цифровой среде
Происходящее в data science и вообще в интернет коммуникациях можно объяснить колониальной экономикой и политикой. Кто первый построил новую инфраструктуру, тот выкачивает все дорогостоящие данные, устанавливает свои правила и облагает остальных пользователей налогами.
Где нас слушать или читать
Слушайте выпуск на Яндекс. Музыке, Apple Podcasts, Google Podcasts или в подкастах ВК.
Расшифровка и дополнительные материалы — на странице подкаста на сайте «Системного Блока».
Как работает GPT-2 и в чем его особенности
#nlp #knowhow
GPT-2 — нейросеть, которая способна генерировать образцы синтетического текста с вполне логичным повествованием, если задать ей любое начало. Модель учитывает стиль и содержание заданного ей фрагмента и уже на их основании создает свое продолжение истории. На момент релиза в ней было рекордное число параметров — 1,5 млрд против обычных 100–300 млн.
История создания и особенности GPT-2
Первая версия GPT (Generative Pre-trained Transformer) от OpenAI появилась еще летом 2018 года. Ее обучали на выборке текстов из Wikipedia и литературных произведений. Однако выяснилось, что нейросеть быстрее учится понимать естественную речь на основе простых постов в интернете. Поэтому в 2019 году OpenAI обучили GPT на больших объемах текстов — 8 млн. страниц из интернета. Новая версия нейросети получила название GPT-2.
Особенность GPT-2 в том, что она сразу — без дообучения — показала отличные результаты, близкие к state-of-the-art. Сразу после обучения нейросеть уже готова сгенерировать текст со всеми логическими вставками: повторное упоминание имен героев, цитаты, отсылки, выдержка одного стиля на протяжении всего текста, связанное повествование.
Таким образом GPT-2 могла понять суть задания примерно как человек — просто по его виду: если есть пропуски — дописать их, задают вопрос — попытаться ответить и т. д.
Что умеет GPT-2
Помимо простого создания текстов, модель можно использовать для следующих целей:
1. Краткий пересказ текста или обобщение.
В качестве входных данных нужно подать не просто фрагмент, а целый текст, состоящий из хотя бы пары абзацев (но лучше — страниц). Если в конце добавить «TL;DR», модель выдаст краткое содержание рассказа.
2. Ответы на вопросы исходя из содержания текста.
На входе подается несколько примеров в виде «Вопрос-Ответ», в конце же дается реальный вопрос, на который нейросеть выдает по тому же макету ответ.
3. Перевод текстов.
Механизм работы с переводами похож на механизм работы с ответами на вопросы. Главное — подать модели правильное начало, то есть нужную структуру текста. В оригинале GPT-2 подавали фрагменты в виде «hello- = привет» и так далее, используя английский и французский. В итоге, когда в конце была фраза «cat = …», нейросеть, следуя логике, выдала «кошку».
О том, как обучали GPT-2 и почему OpenAI предоставили доступ к его полной версии только через год после создания — читайте в нашей статье: https://sysblok.ru/knowhow/kak-rabotaet-gpt-2-i-v-chem-ego-osobennosti/
Камилла Кубелекова, Владимир Селеверстов
#nlp #knowhow
GPT-2 — нейросеть, которая способна генерировать образцы синтетического текста с вполне логичным повествованием, если задать ей любое начало. Модель учитывает стиль и содержание заданного ей фрагмента и уже на их основании создает свое продолжение истории. На момент релиза в ней было рекордное число параметров — 1,5 млрд против обычных 100–300 млн.
История создания и особенности GPT-2
Первая версия GPT (Generative Pre-trained Transformer) от OpenAI появилась еще летом 2018 года. Ее обучали на выборке текстов из Wikipedia и литературных произведений. Однако выяснилось, что нейросеть быстрее учится понимать естественную речь на основе простых постов в интернете. Поэтому в 2019 году OpenAI обучили GPT на больших объемах текстов — 8 млн. страниц из интернета. Новая версия нейросети получила название GPT-2.
Особенность GPT-2 в том, что она сразу — без дообучения — показала отличные результаты, близкие к state-of-the-art. Сразу после обучения нейросеть уже готова сгенерировать текст со всеми логическими вставками: повторное упоминание имен героев, цитаты, отсылки, выдержка одного стиля на протяжении всего текста, связанное повествование.
Таким образом GPT-2 могла понять суть задания примерно как человек — просто по его виду: если есть пропуски — дописать их, задают вопрос — попытаться ответить и т. д.
Что умеет GPT-2
Помимо простого создания текстов, модель можно использовать для следующих целей:
1. Краткий пересказ текста или обобщение.
В качестве входных данных нужно подать не просто фрагмент, а целый текст, состоящий из хотя бы пары абзацев (но лучше — страниц). Если в конце добавить «TL;DR», модель выдаст краткое содержание рассказа.
2. Ответы на вопросы исходя из содержания текста.
На входе подается несколько примеров в виде «Вопрос-Ответ», в конце же дается реальный вопрос, на который нейросеть выдает по тому же макету ответ.
3. Перевод текстов.
Механизм работы с переводами похож на механизм работы с ответами на вопросы. Главное — подать модели правильное начало, то есть нужную структуру текста. В оригинале GPT-2 подавали фрагменты в виде «hello- = привет» и так далее, используя английский и французский. В итоге, когда в конце была фраза «cat = …», нейросеть, следуя логике, выдала «кошку».
О том, как обучали GPT-2 и почему OpenAI предоставили доступ к его полной версии только через год после создания — читайте в нашей статье: https://sysblok.ru/knowhow/kak-rabotaet-gpt-2-i-v-chem-ego-osobennosti/
Камилла Кубелекова, Владимир Селеверстов
Как обучать датасаентистов, играя в шляпу
Третий выпуск подкаста Неопознанный Искусственный Интеллект — с Виктором Кантором
#podcasts
В студии подкаста — Виктор Кантор. Виктор руководит Data Science в МТС и преподает машинное обучение. Виктор — соавтор популярной специализации по машинному обучению на Coursera, преподает в вузах и на офлайн-курсах по машинному обучению «Data Mining in Action».
Мы пригласили его в наш подкаст, чтобы обсудить преподавание Data Science, развитие технологий машинного обучения и, конечно, будущее искусственного интеллекта.
О чем мы поговорили с Виктором
• Как обучать крутых датасаентистов;
• Как распознать инфоцыган, продающих некачественное образование
• Чем отличаются Data Mining, машинное обучение и Data Science;
• Возможен ли сильный искусственный интеллект;
• Что мешает преодолеть «узость» ИИ и так ли универсален человеческий мозг;
• Как научить робота ловить рыбу и будем ли мы программировать на естественном языке;
• Как стать крутым преподавателем Data Science и чем помогает игра в шляпу;
• Как запускать космические корабли в далеком будущем;
• Кто самый крутой русский датасаентист и о чем говорить с искусственным интеллектом.
Хайлайты выпуска
1. Как развивать General Artificial Intelligence
Наука не развивается по плану: для того, чтобы развивать General Artificial Intelligence, не обязательно верить, что-то получится, и не обязательно знать заранее, что мы воспринимаем как GAI. Можно просто решать больше задач, которые сейчас кажутся неподъемными, и постепенно приходить в ту точку, когда то, что получится, люди назовут General Artificial Intelligence.
То есть постепенно мы будем закрывать все больше узких задач, и постепенно у нас будут появляться алгоритмы, которые будут такое количество узких задач решать, что нам уже не так принципиально будет, что все они такие узкие.
2. На каком языке мы общаемся с ИИ
Чтобы роботы выполняли наши задачи, нам нужно уметь формулировать их так, чтобы их можно было выполнить в точности. На естественном языке можно выразить любой, доступный человеку смысл, но и интерпретировать его можно по-разному. General AI, наверное, должен сам уметь что-то делать с недостаточно точно сформулированной задачей.
Однако узкие ИИ так не умеют, поэтому мы пока перебираем разные возможные языки общения. Один из языков общения — обучающая выборка, примеры. ИИ учится на них, а мы ему говорим, что надо оптимизировать. Другой язык общения — среда, которая позволяет ИИ действовать определенным образом и периодически выдает ему фидбек, вознаграждает за какие-то действия. Это называется Reinforcement Learning, или обучение с подкреплением.
3. Что важно для преподавателя в Data Science
Будучи преподавателем, главное, себя не обманывать — понимать, какой у тебя есть реальный опыт и стараться учить в рамках него, а не пытаться себя выдавать за того, кем ты не являешься.
К преподаванию мотивирует осознание того, что ты вроде бы приходишь просто лекцию читать, но если делаешь это действительно хорошо — получается, что на самом деле в будущем запускаешь корабли в космос. Потому что сформированные с твоей помощью крутые специалисты и будут менять наше будущее.
Где нас слушать или читать
Слушайте выпуск на Яндекс. Музыке, Apple Podcasts, Google Podcasts или в подкастах ВК.
Расшифровка и дополнительные материалы — на странице подкаста на сайте «Системного Блока».
Третий выпуск подкаста Неопознанный Искусственный Интеллект — с Виктором Кантором
#podcasts
В студии подкаста — Виктор Кантор. Виктор руководит Data Science в МТС и преподает машинное обучение. Виктор — соавтор популярной специализации по машинному обучению на Coursera, преподает в вузах и на офлайн-курсах по машинному обучению «Data Mining in Action».
Мы пригласили его в наш подкаст, чтобы обсудить преподавание Data Science, развитие технологий машинного обучения и, конечно, будущее искусственного интеллекта.
О чем мы поговорили с Виктором
• Как обучать крутых датасаентистов;
• Как распознать инфоцыган, продающих некачественное образование
• Чем отличаются Data Mining, машинное обучение и Data Science;
• Возможен ли сильный искусственный интеллект;
• Что мешает преодолеть «узость» ИИ и так ли универсален человеческий мозг;
• Как научить робота ловить рыбу и будем ли мы программировать на естественном языке;
• Как стать крутым преподавателем Data Science и чем помогает игра в шляпу;
• Как запускать космические корабли в далеком будущем;
• Кто самый крутой русский датасаентист и о чем говорить с искусственным интеллектом.
Хайлайты выпуска
1. Как развивать General Artificial Intelligence
Наука не развивается по плану: для того, чтобы развивать General Artificial Intelligence, не обязательно верить, что-то получится, и не обязательно знать заранее, что мы воспринимаем как GAI. Можно просто решать больше задач, которые сейчас кажутся неподъемными, и постепенно приходить в ту точку, когда то, что получится, люди назовут General Artificial Intelligence.
То есть постепенно мы будем закрывать все больше узких задач, и постепенно у нас будут появляться алгоритмы, которые будут такое количество узких задач решать, что нам уже не так принципиально будет, что все они такие узкие.
2. На каком языке мы общаемся с ИИ
Чтобы роботы выполняли наши задачи, нам нужно уметь формулировать их так, чтобы их можно было выполнить в точности. На естественном языке можно выразить любой, доступный человеку смысл, но и интерпретировать его можно по-разному. General AI, наверное, должен сам уметь что-то делать с недостаточно точно сформулированной задачей.
Однако узкие ИИ так не умеют, поэтому мы пока перебираем разные возможные языки общения. Один из языков общения — обучающая выборка, примеры. ИИ учится на них, а мы ему говорим, что надо оптимизировать. Другой язык общения — среда, которая позволяет ИИ действовать определенным образом и периодически выдает ему фидбек, вознаграждает за какие-то действия. Это называется Reinforcement Learning, или обучение с подкреплением.
3. Что важно для преподавателя в Data Science
Будучи преподавателем, главное, себя не обманывать — понимать, какой у тебя есть реальный опыт и стараться учить в рамках него, а не пытаться себя выдавать за того, кем ты не являешься.
К преподаванию мотивирует осознание того, что ты вроде бы приходишь просто лекцию читать, но если делаешь это действительно хорошо — получается, что на самом деле в будущем запускаешь корабли в космос. Потому что сформированные с твоей помощью крутые специалисты и будут менять наше будущее.
Где нас слушать или читать
Слушайте выпуск на Яндекс. Музыке, Apple Podcasts, Google Podcasts или в подкастах ВК.
Расшифровка и дополнительные материалы — на странице подкаста на сайте «Системного Блока».
Во что верят IT-евангелисты
#society
Твоя вера должна быть сильна: рассказываем, кто такой IT-евангелист, что он должен уметь и сколько может зарабатывать. Эта статья — первая в серии «Новый рынок труда», где мы обсуждаем профессии будущего.
IT-евангелизм — сочетание маркетинга и веры в технологии, которое помогает продвигать продукт. IT-евангелисты любят и понимают продукт, могут влюбить в него других, однако не стремятся создать его идеальный образ. Поэтому найм харизматичного сотрудника может сильно помочь компании в продвижении и развитии своего продукта.
Рынок IT-евангелизма
Профессия IT-евангелист (technology evangelist) распространена в Америке с конца 20 века. С развитием и распространение стартапов навыки евангелизма становятся обязательными для каждого члена IT-проекта. Диаграммы с количеством вакансий и размером зарплат в разных странах прикрепляем ниже.
В России IT-евангелизм распространяется с 2011 года, но до сих пор звучит экзотично. Евангелисты востребованы только для компаний мирового масштаба, а региональные проекты обходятся без них. Основатели порой сами выступают в роли евангелистов, ведь именно они и есть истинные верующие в свой продукт, способный помочь человечеству.
По-русски должность IT-евангелиста называется «эксперт по стратегическим технологиям». Самые известные — Георгий Бакунов (Яндекс), Петр Гоголоев (MyTona), Михаил Черномордиков, Андрей Ивашенцев и Дмитрий Сошников (Microsoft). Все они активно популяризируют как свои продукты, так и саму профессию IT-евангелист.
Первый IT-евангелист
Первым IT-евангелистом считается Гай Кавасаки — человек, который научил весь мир пользоваться мышью. Его нанял маркетолог Майк Бойх из Apple, который предложил концепцию «software evangelist», чтобы завоевать рынок софта.
В то время — 1980-ые года — Apple не входило даже в топ-5 IT-компаний. Компьютеры Apple II нашли свою нишу в игровой и образовательной сфере, а Apple III быстро ушел в небытие. Apple сложно было конкурировать в сфере продаж, поэтому они выбрали сферу идей.
Кавасаки распространяет новую идеологию Apple на всех сотрудников компании и разработчиков программ. Так, в 1984 году выходит Macintosh, который добивается успеха благодаря первому применению мыши, графического интерфейса, большого количества софта, а главное — рекламной кампании и первой презентации Macintosh от Стива Джобса. Конкурируя с IBM «на словах», яблочные евангелисты распространили Macintosh во все сферы жизни.
Гай Кавасаки написал множество книг по IT-евангелизму. В работе «The Macintosh way» он сравнивает путь IT-евангелиста с путем самурая. Такой путь можно назвать «Мак-до»: «Mac» от Macintosh и «До» от японского «путь». Работа описывает не психологию или философию, а практику жизни, которая позволит незнающему человеку достичь духовного совершенствования.
Советы от Гая Кавасаки о том, как надо читать проповеди о своем продукте, — в нашей статье: https://sysblok.ru/permhse/vo-chto-verjat-it-evangelisty/
Никита Маткин,
социально-гуманитарный факультет НИУ ВШЭ
#society
Твоя вера должна быть сильна: рассказываем, кто такой IT-евангелист, что он должен уметь и сколько может зарабатывать. Эта статья — первая в серии «Новый рынок труда», где мы обсуждаем профессии будущего.
IT-евангелизм — сочетание маркетинга и веры в технологии, которое помогает продвигать продукт. IT-евангелисты любят и понимают продукт, могут влюбить в него других, однако не стремятся создать его идеальный образ. Поэтому найм харизматичного сотрудника может сильно помочь компании в продвижении и развитии своего продукта.
Рынок IT-евангелизма
Профессия IT-евангелист (technology evangelist) распространена в Америке с конца 20 века. С развитием и распространение стартапов навыки евангелизма становятся обязательными для каждого члена IT-проекта. Диаграммы с количеством вакансий и размером зарплат в разных странах прикрепляем ниже.
В России IT-евангелизм распространяется с 2011 года, но до сих пор звучит экзотично. Евангелисты востребованы только для компаний мирового масштаба, а региональные проекты обходятся без них. Основатели порой сами выступают в роли евангелистов, ведь именно они и есть истинные верующие в свой продукт, способный помочь человечеству.
По-русски должность IT-евангелиста называется «эксперт по стратегическим технологиям». Самые известные — Георгий Бакунов (Яндекс), Петр Гоголоев (MyTona), Михаил Черномордиков, Андрей Ивашенцев и Дмитрий Сошников (Microsoft). Все они активно популяризируют как свои продукты, так и саму профессию IT-евангелист.
Первый IT-евангелист
Первым IT-евангелистом считается Гай Кавасаки — человек, который научил весь мир пользоваться мышью. Его нанял маркетолог Майк Бойх из Apple, который предложил концепцию «software evangelist», чтобы завоевать рынок софта.
В то время — 1980-ые года — Apple не входило даже в топ-5 IT-компаний. Компьютеры Apple II нашли свою нишу в игровой и образовательной сфере, а Apple III быстро ушел в небытие. Apple сложно было конкурировать в сфере продаж, поэтому они выбрали сферу идей.
Кавасаки распространяет новую идеологию Apple на всех сотрудников компании и разработчиков программ. Так, в 1984 году выходит Macintosh, который добивается успеха благодаря первому применению мыши, графического интерфейса, большого количества софта, а главное — рекламной кампании и первой презентации Macintosh от Стива Джобса. Конкурируя с IBM «на словах», яблочные евангелисты распространили Macintosh во все сферы жизни.
Гай Кавасаки написал множество книг по IT-евангелизму. В работе «The Macintosh way» он сравнивает путь IT-евангелиста с путем самурая. Такой путь можно назвать «Мак-до»: «Mac» от Macintosh и «До» от японского «путь». Работа описывает не психологию или философию, а практику жизни, которая позволит незнающему человеку достичь духовного совершенствования.
Советы от Гая Кавасаки о том, как надо читать проповеди о своем продукте, — в нашей статье: https://sysblok.ru/permhse/vo-chto-verjat-it-evangelisty/
Никита Маткин,
социально-гуманитарный факультет НИУ ВШЭ
2020 — год комиксов во Франции. По этому случаю Международный центр комиксов и изображений и Национальная библиотека Франции публикуют подборки, посвященные комиксам и их истории. В декабре Gallica делится с читателями праздничными этикетками с красочными эпизодами из комиксов. Опубликованные этикетки можно распечатать, чтобы украсить ими открытки или подарки.
Самые ранние комиксы серии — выпуски The New York Herald за 1904 год. В первом номере «Buster Brown in a peck of trouble again» герой открывает бутылку с шампанским и заливает им весь дом, после чего призывает остальных не открывать ничего, кроме книг и банковского счета. В рождественской истории «Buster Brown’s X-Mas» школьник крадёт у Санты мешок с подарками, чтобы на следующий день раздать их бедным детям.
А выпуск от 1906 года «Little Nemo in Slumberland» рассказывает историю сна маленького мальчика: принцесса загадывает встречу с Немо — летающая машина Санты взрывается в небе — подарки разлетаются по всему миру.
София Емец
#visualheritage
Самые ранние комиксы серии — выпуски The New York Herald за 1904 год. В первом номере «Buster Brown in a peck of trouble again» герой открывает бутылку с шампанским и заливает им весь дом, после чего призывает остальных не открывать ничего, кроме книг и банковского счета. В рождественской истории «Buster Brown’s X-Mas» школьник крадёт у Санты мешок с подарками, чтобы на следующий день раздать их бедным детям.
А выпуск от 1906 года «Little Nemo in Slumberland» рассказывает историю сна маленького мальчика: принцесса загадывает встречу с Немо — летающая машина Санты взрывается в небе — подарки разлетаются по всему миру.
София Емец
#visualheritage
Как строить искусственный интеллект и не погубить человеческую цивилизацию
Четвертый выпуск подкаста Неопознанный Искусственный Интеллект — с Константином Воронцовым
#podcasts
В студии — Константин Воронцов, профессор Физтеха и Вышки, доктор физ.-мат. наук, человек, который занимается анализом данных, машинным обучением и искусственным интеллектом с начала 90-х.
Мы пригласили Константина в наш подкаст, чтобы обсудить потребность цивилизации в сильном ИИ, потолок развития нейросетей и столкновение интересов датасаентистов и специалистов службы безопасности.
О чем мы поговорили с Константином
• В чем революция глубинного обучения;
• Водитель машины как гибридная система машинного обучения;
• Этап «братьев Райт» в глубинном обучении: смотрим, что взлетит;
• Кошмар службы инфобезопасности: обучение на реальных потоковых данных;
• Почему комар все еще умнее беспилотника;
• «Мы роем себе могилу»: чем опасна мечта о сильном ИИ;
• Можно ли сделать универсального помощника;
• Человек versus нейросеть: сколько примеров нужно для обучения нам самим;
• Когда мы уже начнем понимать, что происходит внутри нейросетей.
Хайлайты выпуска
1. На каком этапе развития машинного обучения мы сейчас находимся
Cо стороны может показаться, что развитие методов машинного обучения и deep learning'a происходит по одному сценарию: 1) собрали датасет, 2) применили нейросеть с несколько модифицированной структурой, 3) получили результат, 4) рассказали сообществу, насколько улучшились показатели.
Это может выглядеть как хаотичное экспериментаторство, но его ценность — в сборе метаинформации. В нашем случае о том, какие нейросетевые архитектуры в каких задачах оказались успешными. При этом нам также необходимо огромное количество отрицательных экспериментов. Этот этап — начальный для любой строгой науки, им шли и физика, и биология, и др.
2. По какому пути развития пойдет машинное обучение
Обучаемые системы перейдут от обучения на статичных и предобработанных данных к обучению на разнородных непредобработанных потоковых данных. Уже есть алгоритмы, которые хорошо приспособлены для работы с потоками данных — это градиентные методы.
Дата-аналитики больше не будут переносить данные в удобную среду, а будут сидеть в живых продакшн-системах со специальной безопасной средой для экспериментирования с новыми моделями. Так как службы безопасности не готовы подпускать к данным своих компаний ученых со стороны, учеными будут становиться сами сотрудники.
3. В чем предназначение ИИ
Предназначение искусственного интеллекта — это автоматизация, выполнение рутинной работы. Тогда человек будет творить, заниматься смыслами, придумывать цели, идеи и видение, а все рутинные задачи будет выполнять его персональный ИИ-помощник.
Для создания такого автоматического секретаря широкого профиля у нас уже все есть — надо расширять датасеты, работать с мультимодальными данными, обеспечивать их полноту и решать много отдельных задач, после чего собирать множество решений в одно. Однако надо посчитать, не окажется ли это слишком дорого и энергетически затратно, а потому — нерентабельно.
Где нас слушать или читать
Слушайте выпуск на Яндекс. Музыке, Apple Podcasts, Google Podcasts или в подкастах ВК.
Расшифровка и дополнительные материалы — на странице подкаста на сайте «Системного Блока».
Четвертый выпуск подкаста Неопознанный Искусственный Интеллект — с Константином Воронцовым
#podcasts
В студии — Константин Воронцов, профессор Физтеха и Вышки, доктор физ.-мат. наук, человек, который занимается анализом данных, машинным обучением и искусственным интеллектом с начала 90-х.
Мы пригласили Константина в наш подкаст, чтобы обсудить потребность цивилизации в сильном ИИ, потолок развития нейросетей и столкновение интересов датасаентистов и специалистов службы безопасности.
О чем мы поговорили с Константином
• В чем революция глубинного обучения;
• Водитель машины как гибридная система машинного обучения;
• Этап «братьев Райт» в глубинном обучении: смотрим, что взлетит;
• Кошмар службы инфобезопасности: обучение на реальных потоковых данных;
• Почему комар все еще умнее беспилотника;
• «Мы роем себе могилу»: чем опасна мечта о сильном ИИ;
• Можно ли сделать универсального помощника;
• Человек versus нейросеть: сколько примеров нужно для обучения нам самим;
• Когда мы уже начнем понимать, что происходит внутри нейросетей.
Хайлайты выпуска
1. На каком этапе развития машинного обучения мы сейчас находимся
Cо стороны может показаться, что развитие методов машинного обучения и deep learning'a происходит по одному сценарию: 1) собрали датасет, 2) применили нейросеть с несколько модифицированной структурой, 3) получили результат, 4) рассказали сообществу, насколько улучшились показатели.
Это может выглядеть как хаотичное экспериментаторство, но его ценность — в сборе метаинформации. В нашем случае о том, какие нейросетевые архитектуры в каких задачах оказались успешными. При этом нам также необходимо огромное количество отрицательных экспериментов. Этот этап — начальный для любой строгой науки, им шли и физика, и биология, и др.
2. По какому пути развития пойдет машинное обучение
Обучаемые системы перейдут от обучения на статичных и предобработанных данных к обучению на разнородных непредобработанных потоковых данных. Уже есть алгоритмы, которые хорошо приспособлены для работы с потоками данных — это градиентные методы.
Дата-аналитики больше не будут переносить данные в удобную среду, а будут сидеть в живых продакшн-системах со специальной безопасной средой для экспериментирования с новыми моделями. Так как службы безопасности не готовы подпускать к данным своих компаний ученых со стороны, учеными будут становиться сами сотрудники.
3. В чем предназначение ИИ
Предназначение искусственного интеллекта — это автоматизация, выполнение рутинной работы. Тогда человек будет творить, заниматься смыслами, придумывать цели, идеи и видение, а все рутинные задачи будет выполнять его персональный ИИ-помощник.
Для создания такого автоматического секретаря широкого профиля у нас уже все есть — надо расширять датасеты, работать с мультимодальными данными, обеспечивать их полноту и решать много отдельных задач, после чего собирать множество решений в одно. Однако надо посчитать, не окажется ли это слишком дорого и энергетически затратно, а потому — нерентабельно.
Где нас слушать или читать
Слушайте выпуск на Яндекс. Музыке, Apple Podcasts, Google Podcasts или в подкастах ВК.
Расшифровка и дополнительные материалы — на странице подкаста на сайте «Системного Блока».
Как звучат личные истории в цифровом архиве — интервью с Линор Горалик, основательницей проекта Postpost. Media
#interview #digitalmemory
В XXI веке память по-прежнему играет важную роль в нашей жизни, однако формы ее архивации изменяются. Фотографии теперь хранятся в телефоне, а не фотоальбомах; личные мысли — в заметках гаджетов и цифровых дневниках, а не в блокнотах.
Начинает проявляться феномен «отложенного опыта»: на концертах, экскурсиях и в путешествиях мы чаще всего смотрим на мир через экран телефона, пытаясь поймать нужный момент для фото или видео. Но есть и другая сторона: теперь важным можно делиться.
О том, какие истории звучат в проекте PostPost. Media и немного об их авторах — в интервью с писательницей Линор Горалик создательницей и главным редактором проекта.
О чем мы поговорили с Линор
• Что такое память в XXI веке;
• Стираются ли воспоминания из памяти быстрее, если их записывать;
• Какова миссия Postpost. Media;
• Почему важно рассказывать истории;
• Как выбираются темы к историям;
• Можно ли рассказать историю анонимно;
• Является ли проект цифровым дневником разных эпох.
https://sysblok.ru/interviews/kak-zvuchat-lichnye-istorii-v-cifrovom-arhive/
Дарья Масленко, Даниил Скоринкин
#interview #digitalmemory
В XXI веке память по-прежнему играет важную роль в нашей жизни, однако формы ее архивации изменяются. Фотографии теперь хранятся в телефоне, а не фотоальбомах; личные мысли — в заметках гаджетов и цифровых дневниках, а не в блокнотах.
Начинает проявляться феномен «отложенного опыта»: на концертах, экскурсиях и в путешествиях мы чаще всего смотрим на мир через экран телефона, пытаясь поймать нужный момент для фото или видео. Но есть и другая сторона: теперь важным можно делиться.
О том, какие истории звучат в проекте PostPost. Media и немного об их авторах — в интервью с писательницей Линор Горалик создательницей и главным редактором проекта.
О чем мы поговорили с Линор
• Что такое память в XXI веке;
• Стираются ли воспоминания из памяти быстрее, если их записывать;
• Какова миссия Postpost. Media;
• Почему важно рассказывать истории;
• Как выбираются темы к историям;
• Можно ли рассказать историю анонимно;
• Является ли проект цифровым дневником разных эпох.
https://sysblok.ru/interviews/kak-zvuchat-lichnye-istorii-v-cifrovom-arhive/
Дарья Масленко, Даниил Скоринкин
«Системный Блокъ» 2020: лучшие посты
#best
В этой подборке — лучшие материалы «Системного Блока» за 2020 год. В этот раз мы разбили их по номинациям.
Пранк года
Отставной козы продюсер: генерируем названия книг Дарьи Донцовой
В этой статье воссоздан творческий процесс создания заглавий к «ироническим детективам» Донцовой с помощью Python. Хотя алгоритмы нехитрые, воспроизвести логику порождения заглавий удалось хорошо: человек легко может спутать настоящие названия с выдуманными. Мы проверяли.
Исследование года
Разделить цену победы: кого, откуда и когда призывали в годы ВОВ?
История Великой Отечественной через историю призыва. Мы исследовали более 26.5 млн архивных карточек из базы записей о перемещениях солдат в журналах военно-пересыльных пунктов. В статье показываем, насколько отличался военный призыв в разных регионах Советского Союза, и пытаемся объяснить это с опорой на исторические факты.
Интервью года
Системный Блокъ на самоизоляции
В этом интервью с участниками проекта «Системный Блокъ» мы рассказали, как карантин изменил нашу жизнь и что нового мы узнали о себе на самоизоляции. Например, наш урбанист Оля, встречалась с друзьями в Zoom на кулинарных пятницах, а главред Даня путешествовал по району до самой дальней мусорки.
Data-история года
Кого учили иезуиты?
Орден иезуитов был передовым отрядом католической церкви в деле сопротивления Реформации. Иезуиты создали сеть школ и университетов по всей Европе, выпускники которых вели работу по возвращению «заблудших душ» в лоно Католической церкви. Рассказываем и показываем, что можно узнать, если создать и проанализировать базу данных студентов, которых обучал орден иезуитов, и визуализировать эти данные.
Йоу года
Русский рэп через тематическое моделирование. О чем читает русскоговорящая хип-хоп сцена?
Словосочетание «русский рэпер» — связано со множеством стереотипов. Представьте себе русского рэпера. Что вы видите? Человека в спортивках, окруженного «своими пацанами», или, может, татуированного быка на гелике с золотой цепью в палец толщиной? Разбираемся, кто такие русские рэперы, и о чем они читают на самом деле.
Digital-филология года
Двухсерийное исследование поэзии Маяковского методами корпусной лингвистики. В первой части исследования при помощи Sketch Engine изучаем лирического героя Маяковского до и после революции. Вторая часть исследования посвящена образу России в творчестве Маяковского, а также тому, как поэт Революции оказался несоветским поэтом.
Краудсорсинговая история года
В лес за большими данными: как ваши фотки белок и грибов помогут науке
Информатика биоразнообразия — новая область науки, которой помогают тысячи добровольцев. Чтобы помочь науке — достаточно смартфона. Рассказываем о том, как устроен краудсорсинг биологических данных и как в нем поучаствовать.
Цифровая инвентаризация года
Что не скрывает Конгресс США?
Погружаемся в цифровые коллекции Библиотеки Конгресса США — одного из крупнейших хранилищ человеческого знания. В Библиотеке Конгресса насчитывается 170 млн единиц хранения, включая 24 млн книг, 74 млн рукописей, 15 млн фотографий и 4 млн аудиозаписей. Сколько коллекций Библиотеки Конгресса оцифровано и доступно каждому пользователю интернета?
Социальный датавиз года
Открытые данные ФСИН: число осужденных в России растёт только по наркопреступлениям
Согласно данным ФСИН, с 2005 года в 2,5 раза увеличилось число преступлений, связанных с распространением наркотиков. И наоборот, число осужденных за другие преступления — изнасилования, кражи, вымогательство, грабежи и разбой, — упало более чем вдвое. Действительно ли на общем фоне снижения преступности полиция стала ловить в 2,5 раза больше наркоторговцев?
Лучшая визуализация неравенства
Невидимые кинозвезды: как Голливуд не замечает женщин-режиссеров
10 лет назад «Оскар» за лучшую режиссуру впервые получила женщина — Кэтрин Бигелоу с фильмом «Повелитель бури». Мы провели исследование, проследив динамику упоминаний женщин-режиссеров в статьях популярных киножурналов.
#best
В этой подборке — лучшие материалы «Системного Блока» за 2020 год. В этот раз мы разбили их по номинациям.
Пранк года
Отставной козы продюсер: генерируем названия книг Дарьи Донцовой
В этой статье воссоздан творческий процесс создания заглавий к «ироническим детективам» Донцовой с помощью Python. Хотя алгоритмы нехитрые, воспроизвести логику порождения заглавий удалось хорошо: человек легко может спутать настоящие названия с выдуманными. Мы проверяли.
Исследование года
Разделить цену победы: кого, откуда и когда призывали в годы ВОВ?
История Великой Отечественной через историю призыва. Мы исследовали более 26.5 млн архивных карточек из базы записей о перемещениях солдат в журналах военно-пересыльных пунктов. В статье показываем, насколько отличался военный призыв в разных регионах Советского Союза, и пытаемся объяснить это с опорой на исторические факты.
Интервью года
Системный Блокъ на самоизоляции
В этом интервью с участниками проекта «Системный Блокъ» мы рассказали, как карантин изменил нашу жизнь и что нового мы узнали о себе на самоизоляции. Например, наш урбанист Оля, встречалась с друзьями в Zoom на кулинарных пятницах, а главред Даня путешествовал по району до самой дальней мусорки.
Data-история года
Кого учили иезуиты?
Орден иезуитов был передовым отрядом католической церкви в деле сопротивления Реформации. Иезуиты создали сеть школ и университетов по всей Европе, выпускники которых вели работу по возвращению «заблудших душ» в лоно Католической церкви. Рассказываем и показываем, что можно узнать, если создать и проанализировать базу данных студентов, которых обучал орден иезуитов, и визуализировать эти данные.
Йоу года
Русский рэп через тематическое моделирование. О чем читает русскоговорящая хип-хоп сцена?
Словосочетание «русский рэпер» — связано со множеством стереотипов. Представьте себе русского рэпера. Что вы видите? Человека в спортивках, окруженного «своими пацанами», или, может, татуированного быка на гелике с золотой цепью в палец толщиной? Разбираемся, кто такие русские рэперы, и о чем они читают на самом деле.
Digital-филология года
Двухсерийное исследование поэзии Маяковского методами корпусной лингвистики. В первой части исследования при помощи Sketch Engine изучаем лирического героя Маяковского до и после революции. Вторая часть исследования посвящена образу России в творчестве Маяковского, а также тому, как поэт Революции оказался несоветским поэтом.
Краудсорсинговая история года
В лес за большими данными: как ваши фотки белок и грибов помогут науке
Информатика биоразнообразия — новая область науки, которой помогают тысячи добровольцев. Чтобы помочь науке — достаточно смартфона. Рассказываем о том, как устроен краудсорсинг биологических данных и как в нем поучаствовать.
Цифровая инвентаризация года
Что не скрывает Конгресс США?
Погружаемся в цифровые коллекции Библиотеки Конгресса США — одного из крупнейших хранилищ человеческого знания. В Библиотеке Конгресса насчитывается 170 млн единиц хранения, включая 24 млн книг, 74 млн рукописей, 15 млн фотографий и 4 млн аудиозаписей. Сколько коллекций Библиотеки Конгресса оцифровано и доступно каждому пользователю интернета?
Социальный датавиз года
Открытые данные ФСИН: число осужденных в России растёт только по наркопреступлениям
Согласно данным ФСИН, с 2005 года в 2,5 раза увеличилось число преступлений, связанных с распространением наркотиков. И наоборот, число осужденных за другие преступления — изнасилования, кражи, вымогательство, грабежи и разбой, — упало более чем вдвое. Действительно ли на общем фоне снижения преступности полиция стала ловить в 2,5 раза больше наркоторговцев?
Лучшая визуализация неравенства
Невидимые кинозвезды: как Голливуд не замечает женщин-режиссеров
10 лет назад «Оскар» за лучшую режиссуру впервые получила женщина — Кэтрин Бигелоу с фильмом «Повелитель бури». Мы провели исследование, проследив динамику упоминаний женщин-режиссеров в статьях популярных киножурналов.
Разработка искусственного интеллекта: какие цели уже достигнуты
#futurology
В 1972 году ученые составили список из 12 задач, которые нужно решить для создания искусственного интеллекта в ближайшие десятилетия. Сейчас, сорок пять лет спустя, мы можем оценить, что из казавшегося тогда важным и сложным, было решено, а что так и осталось актуальной задачей разработки искусственного интеллекта.
На наш взгляд, на данный момент достигнуты 6 из 12 поставленных целей:
✔️ 1. Создание шахматных программ.
✔️ 2. Машинное творчество в области музыки, поэзии, живописи.
◻️ 3. Создание программ, выдерживающих тест Тьюринга.
◻️ 4. Машинное доказательство теорем.
◻️ 5. Создание программ индуктивного вывода.
✔️ 6. Создание вопросно-ответных систем (в том числе систем автоматического реферирования).
✔️ 7. Автоматический перевод.
✔️ 8. Распознавание и синтез речи.
◻️ 9. Автоматическая проверка правильности программ.
✔️ 10. Автоматическое вождение автомобилей.
◻️ 11. Создание роботов-сборщиков, роботов-строителей.
◻️ 12. Создание робота-планетохода для автономной работы в новых условиях.
В посте рассмотрим самые спорные моменты.
Машинное творчество в области музыки, поэзии, живописи
Формально говоря — да. Фактически говоря — нет.
Компьютеры умеют рисовать картины, сочинять стихи и музыку. Ради справедливости нужно сказать, что это так было уже в 1970-х годах. Разница с тем временем касается в первую очередь стоимости периферических устройств.
45 лет назад можно было написать программу, которая создаст мелодию, но трудно было эту мелодию воспроизвести. Компьютер мог написать картину, но трудно было эту картину перенести из памяти в физический мир: принтер был слишком дорогим.
Сейчас с периферией проблем нет, а часто она даже не нужна: общедоступность устройств сделала мир таким, что распечатывать созданное компьютером изображение не нужно, легче посмотреть его на экране смартфона.
Однако, если речь идет про настоящее творчество, сопоставимое с творчеством поэтов и художников, то искусственному интеллекту похвастаться нечем. Что стихи, что картины в исполнении компьютера — это компиляции, воспроизведение, косплей. Придумывать новое микросхемы пока не в состоянии.
Хотя в наше время оказались востребованы именно имитации, и компьютер в этом преуспел. Время и устройство нашли друг друга. Инженерам достаточно того, что стихи рифмуются, а музыка похожа на то, что писал в свое время Бах. Вряд ли кто-то заинтересован в принципиальном прогрессе в этой области. Так что засчитаем искусственному интеллекту балл.
Создание программ, выдерживающих тест Тьюринга
Снова и да и нет.
С одной стороны, чат-боты с того времени сделали огромный шаг вперед. В 1970-е годы «компьютеры, которые общаются с человеком» на практике означало «компьютеры, которые в своей памяти держат все варианты диалоговых ситуаций». То есть для хорошей программы-болталки нужно было вручную описать все возможные вопросы и все возможные ответы на них. При минимальном погружении в тему становится очевидно, что это просто невозможно: число возможных речевых ситуаций бесконечно.
Теперь так никто не делает. Нашёлся другой путь: глубокое обучение. Нейросеть умеет находить в предоставленных ей данных скрытые закономерности, которые позволяют выбирать нужный вариант при ответе на вопрос человека. Существуют такие программы, которые действительно умеют имитировать общение с человеком, поддерживать осмысленный диалог на протяжении обмена несколькими репликами. Всё это стоит занести разработчикам искусственного интеллекта в актив.
В то же время все сообщения о том, что тест Тьюринга пройден — просто кликбейт. В чистом виде тест не пройден. А если бы даже он был пройден, это не означало бы, что в построении интеллектуальных систем произошел принципиальный прорыв. Это была бы еще одна имитация — на этот раз на уровне общения.
Комментарии ко всем остальным задачам — в нашей статье: https://sysblok.ru/futurology/dostigla-li-svoih-celej-razrabotka-iskusstvennogo-intellekta/
Борис Орехов
#futurology
В 1972 году ученые составили список из 12 задач, которые нужно решить для создания искусственного интеллекта в ближайшие десятилетия. Сейчас, сорок пять лет спустя, мы можем оценить, что из казавшегося тогда важным и сложным, было решено, а что так и осталось актуальной задачей разработки искусственного интеллекта.
На наш взгляд, на данный момент достигнуты 6 из 12 поставленных целей:
✔️ 1. Создание шахматных программ.
✔️ 2. Машинное творчество в области музыки, поэзии, живописи.
◻️ 3. Создание программ, выдерживающих тест Тьюринга.
◻️ 4. Машинное доказательство теорем.
◻️ 5. Создание программ индуктивного вывода.
✔️ 6. Создание вопросно-ответных систем (в том числе систем автоматического реферирования).
✔️ 7. Автоматический перевод.
✔️ 8. Распознавание и синтез речи.
◻️ 9. Автоматическая проверка правильности программ.
✔️ 10. Автоматическое вождение автомобилей.
◻️ 11. Создание роботов-сборщиков, роботов-строителей.
◻️ 12. Создание робота-планетохода для автономной работы в новых условиях.
В посте рассмотрим самые спорные моменты.
Машинное творчество в области музыки, поэзии, живописи
Формально говоря — да. Фактически говоря — нет.
Компьютеры умеют рисовать картины, сочинять стихи и музыку. Ради справедливости нужно сказать, что это так было уже в 1970-х годах. Разница с тем временем касается в первую очередь стоимости периферических устройств.
45 лет назад можно было написать программу, которая создаст мелодию, но трудно было эту мелодию воспроизвести. Компьютер мог написать картину, но трудно было эту картину перенести из памяти в физический мир: принтер был слишком дорогим.
Сейчас с периферией проблем нет, а часто она даже не нужна: общедоступность устройств сделала мир таким, что распечатывать созданное компьютером изображение не нужно, легче посмотреть его на экране смартфона.
Однако, если речь идет про настоящее творчество, сопоставимое с творчеством поэтов и художников, то искусственному интеллекту похвастаться нечем. Что стихи, что картины в исполнении компьютера — это компиляции, воспроизведение, косплей. Придумывать новое микросхемы пока не в состоянии.
Хотя в наше время оказались востребованы именно имитации, и компьютер в этом преуспел. Время и устройство нашли друг друга. Инженерам достаточно того, что стихи рифмуются, а музыка похожа на то, что писал в свое время Бах. Вряд ли кто-то заинтересован в принципиальном прогрессе в этой области. Так что засчитаем искусственному интеллекту балл.
Создание программ, выдерживающих тест Тьюринга
Снова и да и нет.
С одной стороны, чат-боты с того времени сделали огромный шаг вперед. В 1970-е годы «компьютеры, которые общаются с человеком» на практике означало «компьютеры, которые в своей памяти держат все варианты диалоговых ситуаций». То есть для хорошей программы-болталки нужно было вручную описать все возможные вопросы и все возможные ответы на них. При минимальном погружении в тему становится очевидно, что это просто невозможно: число возможных речевых ситуаций бесконечно.
Теперь так никто не делает. Нашёлся другой путь: глубокое обучение. Нейросеть умеет находить в предоставленных ей данных скрытые закономерности, которые позволяют выбирать нужный вариант при ответе на вопрос человека. Существуют такие программы, которые действительно умеют имитировать общение с человеком, поддерживать осмысленный диалог на протяжении обмена несколькими репликами. Всё это стоит занести разработчикам искусственного интеллекта в актив.
В то же время все сообщения о том, что тест Тьюринга пройден — просто кликбейт. В чистом виде тест не пройден. А если бы даже он был пройден, это не означало бы, что в построении интеллектуальных систем произошел принципиальный прорыв. Это была бы еще одна имитация — на этот раз на уровне общения.
Комментарии ко всем остальным задачам — в нашей статье: https://sysblok.ru/futurology/dostigla-li-svoih-celej-razrabotka-iskusstvennogo-intellekta/
Борис Орехов
Редакционное расстояние: что это и где используется
#knowhow #glossary
Чаще всего редакционное расстояние (edit distance) применяется в компьютерной лингвистике и биоинформатике. В этих областях нередко возникают задачи, когда надо понять, насколько две строки формально близки. То есть редакционные расстояния говорят не о смысловой близости слов или предложений, а только о близости их формы.
Как вычислить редакционное расстояние
Чтобы узнать редакционное расстояние между двумя строками, нужно посчитать минимальное количество посимвольных операций, которые нужно сделать, чтобы превратить первую строку во вторую. Таких операций всего четыре:
• удаление
• вставка
• замена
• перестановка соседних символов.
В операции может участвовать только один символ в строке. Количество операций — это и есть редакционное расстояние между двумя строками. Простейший пример: чтобы превратить «сон» в «слон», нужно произвести одну операцию: вставить букву «л» после «с».
Виды редакционных расстояний
Есть несколько основных редакционных расстояний. Основное отличие между ними — набор операций, который разрешено использовать. Расстояние Хэмминга разрешает только замены. Расстояние Джаро-Винклера — только перестановки.
Одно из самых известных редакционных расстояний — расстояние Левенштейна, которое разрешает все операции, кроме перестановки.
Попробуем посчитать расстояние Левенштейна между словами «карета» и «ракета». Чтобы превратить карету в ракету, нужно:
1) поменять первую букву — «к» на «р», после этой операции штраф равен 1, и у нас есть слово «какета»
2) поменять третью букву — «р» на «к», после этой операции штраф равен 2, и мы получили нужное слово «ракета».
Расстояние Левенштейна между словами «карета» и «ракета» равно двум.
А расстояние Дамерау-Левенштейна разрешает все четыре операции: замену, вставку, удаление и перестановку соседних символов.
Иногда измеряют пословное расстояние Левенштейна — при таком подходе за единицу принимается не один символ, а одно слово. Тогда между предложениями «Я люблю лингвистику» и «Я люблю компьютерную лингвистику» расстояние будет равно 1, а не 14, как было бы в случае посимвольных операций.
Мы также можем давать разный штраф за разные операции. Например, решить, что мы очень не любим замены символов и давать за них не 1, а 2 балла. В этом случае говорят, что операции имеют разный вес, и называют полученный результат взвешенным расстоянием Левенштейна.
Где применяют редакционное расстояние
В компьютерной лингвистике возникает множество задач, где нужно посчитать формальную меру близости между строками: например, для проверки орфографии, или для сравнения, насколько похожи два предложения. Первые системы автоматической проверки орфографии фактически сводились к подсчету редакционного расстояния Левенштейна или Дамерау-Левенштейна с использованием сложной системы штрафов. Система шла от слова к слову и проверяла, есть ли такое слово в словаре, а когда встречала слово, которого нет в словаре, то пыталась заменить его на наиболее близкое по редакционному расстоянию слово из словаря. Сейчас расстояние Левенштейна редко используется как единственный признак близости, но очень часто как один из.
В биоинформатике редакционные расстояния используются для определения похожести друг на друга разных участков ДНК или РНК, которые в таком случае представляются как последовательность, состоящая из A, G, C, U и T — это первые буквы четырех азотистых основания, которые могут входить в состав ДНК или РНК: аденин, гуанин и цитозин, урацил и тимин.
Бывают и неочевидные применения, например, определение, на что больше похожа буква на нечеткой фотографии текста, на «Л» или «П». В таком случае буквы представляют как стоящие друг над другом строки, состоящие из черных и белых пикселей.
https://sysblok.ru/knowhow/chto-takoe-redakcionnoe-rasstojanie/
https://sysblok.ru/glossary/rasstojanie-levenshtejna/
Ася Ройтберг
#knowhow #glossary
Чаще всего редакционное расстояние (edit distance) применяется в компьютерной лингвистике и биоинформатике. В этих областях нередко возникают задачи, когда надо понять, насколько две строки формально близки. То есть редакционные расстояния говорят не о смысловой близости слов или предложений, а только о близости их формы.
Как вычислить редакционное расстояние
Чтобы узнать редакционное расстояние между двумя строками, нужно посчитать минимальное количество посимвольных операций, которые нужно сделать, чтобы превратить первую строку во вторую. Таких операций всего четыре:
• удаление
• вставка
• замена
• перестановка соседних символов.
В операции может участвовать только один символ в строке. Количество операций — это и есть редакционное расстояние между двумя строками. Простейший пример: чтобы превратить «сон» в «слон», нужно произвести одну операцию: вставить букву «л» после «с».
Виды редакционных расстояний
Есть несколько основных редакционных расстояний. Основное отличие между ними — набор операций, который разрешено использовать. Расстояние Хэмминга разрешает только замены. Расстояние Джаро-Винклера — только перестановки.
Одно из самых известных редакционных расстояний — расстояние Левенштейна, которое разрешает все операции, кроме перестановки.
Попробуем посчитать расстояние Левенштейна между словами «карета» и «ракета». Чтобы превратить карету в ракету, нужно:
1) поменять первую букву — «к» на «р», после этой операции штраф равен 1, и у нас есть слово «какета»
2) поменять третью букву — «р» на «к», после этой операции штраф равен 2, и мы получили нужное слово «ракета».
Расстояние Левенштейна между словами «карета» и «ракета» равно двум.
А расстояние Дамерау-Левенштейна разрешает все четыре операции: замену, вставку, удаление и перестановку соседних символов.
Иногда измеряют пословное расстояние Левенштейна — при таком подходе за единицу принимается не один символ, а одно слово. Тогда между предложениями «Я люблю лингвистику» и «Я люблю компьютерную лингвистику» расстояние будет равно 1, а не 14, как было бы в случае посимвольных операций.
Мы также можем давать разный штраф за разные операции. Например, решить, что мы очень не любим замены символов и давать за них не 1, а 2 балла. В этом случае говорят, что операции имеют разный вес, и называют полученный результат взвешенным расстоянием Левенштейна.
Где применяют редакционное расстояние
В компьютерной лингвистике возникает множество задач, где нужно посчитать формальную меру близости между строками: например, для проверки орфографии, или для сравнения, насколько похожи два предложения. Первые системы автоматической проверки орфографии фактически сводились к подсчету редакционного расстояния Левенштейна или Дамерау-Левенштейна с использованием сложной системы штрафов. Система шла от слова к слову и проверяла, есть ли такое слово в словаре, а когда встречала слово, которого нет в словаре, то пыталась заменить его на наиболее близкое по редакционному расстоянию слово из словаря. Сейчас расстояние Левенштейна редко используется как единственный признак близости, но очень часто как один из.
В биоинформатике редакционные расстояния используются для определения похожести друг на друга разных участков ДНК или РНК, которые в таком случае представляются как последовательность, состоящая из A, G, C, U и T — это первые буквы четырех азотистых основания, которые могут входить в состав ДНК или РНК: аденин, гуанин и цитозин, урацил и тимин.
Бывают и неочевидные применения, например, определение, на что больше похожа буква на нечеткой фотографии текста, на «Л» или «П». В таком случае буквы представляют как стоящие друг над другом строки, состоящие из черных и белых пикселей.
https://sysblok.ru/knowhow/chto-takoe-redakcionnoe-rasstojanie/
https://sysblok.ru/glossary/rasstojanie-levenshtejna/
Ася Ройтберг