Системный Блокъ
10.8K subscribers
241 photos
2 videos
1 file
875 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
加入频道
April 17, 2023
«Цифровой концлагерь»: как закон о повестках через «Госуслуги» взбудоражил россиян 

В России вступил в действие закон, объявляющий повестку из военкомата врученной вне зависимости от ее получения призывником Теперь повестку достаточно направить гражданину через «Госуслуги», разместить в электронном реестре или выслать заказным письмом. «Системный Блокъ» изучил изменение запросов в Яндексе в связи с этой новостью. Рассказываем, как Россияне отреагировали на новый закон повышенным интересом к «цифровым повесткам», «цифровому концлагерю» и удалению аккаунта на «Госуслугах».

Кратко: о чем статья?

Законопроект, который делает физическое вручение повесток из военкомата необязательным, лежал в думе с 2018 года, но после внесения радикальных изменений в текст он промчался через Госдуму, Совет Федерации и получил подпись президента РФ в течение трех дней. Хотя закон был принят к весеннему призыву, потенциально он касается всех военнообязанных, а не только срочников.

Интересно, что до апреля 2023 «цифровые повестки из военкомата» россияне не искали в принципе. До этого «цифровыми повестками» интересовались с декабря прошлого года, но не в военном контексте, а в связи с ЕАЭС (Евразийский экономический союз). Одновременно с интересом к цифровым повесткам из военкомата вновь возрастает частотность поискового запроса «цифровой концлагерь», который уже встречался и ранее. Его последний пик пришелся на ноябрь 2021 года — вероятно, это было связано с COVID-19 и QR кодами.

Среди других популярных запросов — удаление аккаунта на «Госуслугах». Подробнее о его статистике, а также о «фейковых» цифровых повестках, на которые жаловались ещё осенью — в полном тексте статьи.

Время чтения: 4 минуты.
April 20, 2023
April 21, 2023
April 25, 2023
Какое растение изображено на фотографии выше?
Anonymous Quiz
27%
Камыш
7%
Осока
65%
Рогоз
1%
Одуванчик! Наверное….
April 25, 2023
May 1, 2023
Шифропанки — анархисты интернета 

В конце 80-х годов опасения, что госструктуры будут контролировать зарождающийся интернет, привели к возникновению движения шифропанков. Эти интернет-активисты выступали за конфиденциальность в киберпространстве. Шифропанки совершенствовали технологии криптографии, которые сегодня лежат в основе криптовалют и известных проектов Tor и WikiLeaks. Разбираемся, как шифропанки хотели изменить общество и интернет.

Кратко: о чём статья?

Основатели движения шифропанков — Тимоти Мэй (Timothy C. May) и Эрик Хьюз (Eric Hughes) уже в 1980-х считали, что Интернет рискует стать платформой, в которой информация о человеке может быть легко получена государством и его институтами. В 1988 Мэй написал свой «Манифест криптоанархиста», а Хьюз в «Манифесте шифропанка» 1992 года предложил несколько вариантов защиты данных: анонимная пересылка почты, электронные деньги и цифровые подписи. 

Шифропанки рассматривали конфиденциальность как базовое и неотъемлемое право человека. Впоследствии Джуллиан Ассанж (Julian Paul Assange), единственный шифропанк не из США, сместил этот фокус в сторону прозрачности благодаря «WikiLeaks», его проекта по публичному обнародованию секретных документов государств и корпораций.

В своих технологиях и идеях шифропанки вдохновлялись политическими идеологиями, научной фантастикой, хакерской этикой и контркультурой. Романы «Подлинные имена» Вернора Винджа, «Игра Эндера» Орсона Скотта Карда и «Нейромант» Уильяма Гибсона, например, высоко ценились участниками движения и считались источниками их мировоззрения.

О том, как на шифропанков повлиял один из самых известных хакеров в истории интернета и роман «1984» Джорда Оруэлла, а также о том, как развивается движение сегодня — в полном тексте статьи.

Время чтения: 9 минут.
May 4, 2023
Бот ChatGPT против человека и других роботов

Новости о развитии искусственного интеллекта попадают на первые полосы различных медиа, а про ChatGPT слышно из каждого утюга. При этом, различным моделям ИИ приходится конкурировать по степени «разумности» не только с человеком, но и между собой. Разбираемся с конкуренцией между моделями ИИ, между ИИ и человеком, преимуществами и недостатками бота ChatGPT и его аналогов, а также моральной ответственностью и человеческим снобизмом.

Кратко: о чем статья?

Сегодня умение нейросетей писать бизнес-планы, тексты для копирайтеров и коды для программистов большинство воспринимает как невероятный прорыв в технологиях. При этом голосовые помощники, которые 12 лет назад вызывали не меньший восторг, уже не кажутся такими революционными: ChatGPT способен написать книгу о ядерной физике, а Siri даже не может переключить трек. Правда, даже у самых современных нейросетей есть свои недостатки: например, основная проблема GPT-4 (подробнее об этой модели — в нашем материале) в том, что она не подключена к интернету и, соответственно, оперирует только информацией, которую получила до сентября 2021 года. И пока Google экстренно дорабатывает свой бот Bard с доступом к сети, Microsoft уже опередил всех своих конкурентов и интегрировал технологию ChatGPT в поисковик Bing, встроенный в браузер Microsoft Edge. 

Что же касается сравнения возможностей искусственного и естественного (человеческого) интеллектов, по мнению когнитивного лингвиста Ноама Хомского, самым большим недостатком ИИ является отсутствие способности не только описывать настоящее, но также говорить о том, чего нет, что могло и не могло бы произойти. Машина все еще не справляется с теми задачами, которые требуют человеческого жизненного опыта — разговаривать на любые темы (тест Тьюринга), ориентироваться в пространстве и решать бытовые задачи (кофе-тест Уозняка), а также реализовывать сенсомоторные навыки (парадокс Моравека).

О мнениях специалистов на счет развития ИИ и желании пользователей спровоцировать нейросети — в полной версии статьи (а ещё в ней есть мемы).

Время чтения: 12,5 минут.
May 5, 2023
Цифровые архивы и базы данных по истории ХМАО–Югры для школьных уроков и проектов

Как увлечь школьников историей страны? Лучше всего — с помощью настоящих свидетельств из прошлого: писем с фронта, фотографий, музейных предметов и реальных архивных документов. Пойти в музей можно не всегда — но сегодня множество музеев оцифрованы. Об использовании цифровых архивов и электронных баз по истории Ханты-Мансийского автономного округа на уроках рассказывает учитель и блогер «Системного Блока» Юлия Папанова.

🏛️ Сводная база музеев ХМАО-Югры

В каталоге можно найти 283 783 экспоната из 32-х музеев округа. Среди них — оцифрованные документы, фотографии, картины, предметы прикладного искусства, быта и этнографии, предметы археологии и нумизматики. 

Эта база дает большие возможности для «визуализации» прошлого: можно предложить ученикам определить, что это и как использовалось, классифицировать предметы, расположить их в правильной хронологии, подготовить описание выставки и т.п. А ещё — проанализировать материалы, из которых сделаны предметы одежды, быта и культа, и сделать выводы о том, с кем торговали жители средневековой Югры.

🗺️ Виртуальный музей «История ссылки и спецпереселений в Ханты-Мансийском автономном округе – Югре. 1920-1950-е гг»

На сайте проекта представлены предметы быта, документы, фотографии, письма и интерактивная карта. Благодаря отдельным разделам можно узнать больше о жизни в ссылке и вкладе спецпереселенцев в развитие округа.

Автор блога использовала для урока, посвященного теме «Большого террора», архивно-следственное дело Куриковых, манси по национальности, приговоренных к смертной казни в 1937 году. А один из её учеников сделал исследование, в рамках которого привел доказательства, что это дело было сфабриковано.

👨‍👩‍👧‍👦 Генеалогический портал «Связь поколений Югры»
Этот портал — один из проектов Службы по делам архивов Югры. Его цель – помочь всем желающим в изучении своей родословной. На портал загружено более 280 метрических книг в период с 1730 по 1928 годы, в которых содержатся 704 308 записей о рождении, браке и смерти жителей автономного округа.

Ученики, чьи предки жили в автономном округе более ста лет назад, могут составить свое генеалогические древо на основе материалов портала.

О других базах данных и вариантах их использования узнаете из полного текста на сайте.
May 6, 2023
May 9, 2023
От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна

Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Изменения в работе НКРЯ были заметны ещё в 2019 году: тогда лингвисты высказали опасения о возможном закрытии сервиса. К счастью, проблемы оказались временными, и НКРЯ не только не прекратил свою работу, но и заметно изменился и расширился. Самым заметным обновлением стал новый дизайн сайта, но есть и много глубоких содержательных перемен. Об основных обновлениях в корпусе, очевидных и не очень — в нашем новом материале.

Кратко: о чем статья?

За последние пару лет в НКРЯ появились не только новые тексты, но и новые корпуса. Один из наиболее важных — панхронический, позволяющий находить тексты от средневековых до современных. В другом новом корпусе, «Русская классика», собраны не только основные тексты, но также черновики и редакционные варианты произведений. Наконец, для корпуса «От 2 до 15» был проведен масштабный опрос о самых популярных произведениях среди детей разных возрастов. В итоге в корпус вошли 75 наиболее популярных прозаических произведений зарубежных и отечественных авторов от «Гарри Поттера» до «Денискиных рассказов».

Среди других изменений — новые функции: поиск коллокаций, частотность выдачи и автоматическое снятие омонимии. А ещё — портреты слова и корпуса. Узнать о них больше, посмотреть портрет слова «чипсы» и познакомиться с другими обновлениями можно благодаря полному тексту статьи.

Время чтения: 10,5 минут.
May 10, 2023
May 11, 2023
«Чей» текст сгенерировала нейросеть?
Anonymous Quiz
11%
Толстой
29%
Достоевский
14%
Лермонтов
15%
Сологуб
32%
Тургенев
May 11, 2023
Как дообучить языковую модель писать в стиле Достоевского

Как обучить нейросеть на своих данных? Какие бывают параметры обучения/генерации, и на что они влияют? Как оптимизировать процесс обучения, если нет видеокарты? Отвечаем на все эти вопросы в нашем туториале по файн-тюнингу ruGPT3 на текстах Достоевского.

Кратко: о чем
статья?

Fine-Tuning — это способ улучшить предварительно обученную модель, которая уже имеет некоторые знания, путем небольших корректировок. Благодаря нему языковую модель можно обучить генерировать тексты в самых разных стилях: от комментариев из Одноклассников до прозы Лермонтова. Для fine-tuning достаточно нескольких мегабайтов текстов, что примерно эквивалентно 10-15 произведениям.

При этом дообучение любых нейросетей требует вычислительные мощности, то есть GPU (видеокарты). Работать с видеокартой бесплатно можно с помощью сервиса Google Colab, в который как раз можно вместить самую маленькую версию русскоязычной модели ruGPT3. А в качестве данных можно взять готовый корпус, состоящий из 34 произведений Достоевского.

Если четко следовать инструкции, модель, подстраиваясь под стиль Достоевского, сгенерирует, например такую фразу: «Кофею, а? Нет-с. Не надо; да и не нужно…». На этом примере видно, что она уловила такие архаичные формы, как «кофею», словоерс «нет-с» и некоторые другие особенности поэтики писателя.

Полный подробный текст инструкции для дообучения модели на корпусе Достоевского, построчно прокомментированный скрипт для обучения языковых моделей и примеры других результатов найдёте в полном тексте статьи. Если будете обучать модель на текстах других писателей (или — тоже Достоевского) — обязательно делитесь в комментариях результатами.

Время чтения: 19 минут.
May 11, 2023
Русско-китайский параллельный корпус

Параллельный корпус — это корпус, состоящий из оригинального текста и его переводов на другие языки. Параллельные корпуса позволяют узнать, какие приемы и стратегии использовал переводчик для передачи слов, у которых нет эквивалентов в другом языке. «Системный Блокъ» рассказывает про Русско-китайский параллельный корпус.

Кратко: о чем статья?

Русско-китайский параллельный корпус — часть НКРЯ (Национального корпуса русского языка), масштабный проект, существующий с 2016 года, созданный учеными и студентами из российских и китайских университетов.

На данный момент корпус состоит из чуть менее 4,5 миллионов слов и более тысячи текстов самых разных жанров и стилей. Можно искать работы определенного автора, жанра, периода или конкретные произведения. Кроме того, важная особенность Русско-китайского параллельного корпуса — возможность выбрать вариант китайского языка.

Преимущество корпуса — коллекция переводов, через которые можно прослеживать межъязыковые отношения между исходной и переводной культурами. Например, можно искать варианты перевода безэквивалентной лексики или сравнивать употребление слов, обозначающих какие-либо концепты, которые в двух культурах не совпадают по смыслу. Так, воспользовавшись корпусом, можно узнать, что слово «ботвинья», обозначающее холодный суп на квасе, на китайский переводят как «гаспачо».

О поддерживаемых форматах ввода, создании параллельных корпусов и перспективах Русско-китайского параллельного корпуса, узнаете из полного текста статьи.

Время чтения: 12 минут.
May 12, 2023
Уникальные книжные памятники онлайн: от старинных карт Сибири до мохнатого «лесного чюда» 

«Книжные памятники» — один из самых амбициозных проектов по перенесению книжного культурного наследия на цифровые носители. «Системный Блокъ» рассказывает, как и зачем происходит оцифровка книг и других материалов, и советует, на какие из них стоит взглянуть в первую очередь.

Кратко: о чем статья?

Одна из основных целей оцифровки — сохранить оригинальные издания в лучшем состоянии, так как появляется возможность обращаться к электронным версиям. Кроме того, такой проект решает ещё одну важную задачу — популяризировать и демократизировать профессиональное знание, поэтому ресурс интересен не только специалистам, но и не связанным с областью людям.

Проект оцифровывает материалы, обладающие признаками памятника (учитывается, например, хронология и материальная ценность). У всех сканов документов есть библиографическое описание, которое позволяет сортировать памятники на сайте проекта по году появления, языку, месту издания, автору и другим параметрам.

Найти оцифрованные материалы можно на сайте проекта. Здесь собраны не только книги, но и старинная реклама, разговорники или русский лубок. А из поваренной книги XVIII века можно узнать «710 правил, по которым всяк может лучшим вкусом желаемыя кушанья приготовлять».

О том, для чего еще оцифровывают документы, зачем проводят экспертизу памятников, а также на какие еще материалы стоит обратить внимание, узнаете из полного текста статьи.

Время чтения: 8 минут.
May 15, 2023
«Открытые данные против мракобесия и пренебрежения реальностью»: интервью с Кириллом Маслинским

Кирилл Маслинский — цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора в Пушкинском доме, создатель Детского корпуса и Репозитория открытых данных по русской литературе и фольклору. «Системный Блокъ» узнал у Кирилла, что можно найти в тысячах оцифрованных детских книг, когда в детской литературе было допустимо употреблять слово «какашка», зачем филологам репозиторий открытых данных и может ли этот репозиторий как-то помочь в борьбе с мракобесием и войнами.

Кратко: о чем интервью?

Одна из миссий Лаборатории цифровых исследований литературы и фольклора — воплощать литературные корпуса, которые работают по тому же принципу, что и Национальный корпус русского языка. Например, ДетКорпус из 3000 детских книг и корпус нарративной прозы из 500 романов XIX века.

Ещё одна важная задача — работа над репозиторием открытых данных, литературы и фольклора. Сегодня профессиональный долг исследователя — опубликовать после исследования данные по современным стандартам. Лаборатория помогает это сделать: данные необходимо не только переработать и донести до публики, но и сделать доступными для количественных исследований. Например, в случае с датасетом о бытовании литературных текстов в ГУЛАГе было около восьми раундов правок с авторами, потому что таблица создавалась филологами как «человекочитаемые» данные, а не как машиночитаемые.

На базе этих корпусов и данных проводятся исследования. Одно из них — про репрезентацию телесности и гендерные аспекты в детских текстах. Выяснилось, например, что у мальчиков писатели очень сильно актуализируют затылки, а у девочек — щеки. Это как бы такие отдельно «женские» и «мужские» части тела в текстах детского корпуса. Другое исследование, которое проводил Кирилл, было посвящено контекстному употреблению слова «счастье» в ДетКорпусе.

О том, каким «счастье» в детских книгах было в сталинском СССР и как изменилось к концу хрущевского периода, что такое digital commons, с какими сложностями столкнулись создатели датасета с данными ГУЛАГа и почему сегодня он актуален как никогда — в полном тексте интервью.

Время чтения: 28 минут.
May 16, 2023
Как дети учатся читать и что нам говорит об этом наука?

Большинство детей начинает говорить и понимать устную речь в течение первых лет жизни, не прикладывая к этому никаких видимых усилий. Умение читать – другое дело. Чтение не «приходит само», ему нужно научить. Анастасия Лопухина рассказывает в новом материале своего блога, как дети учатся читать и что знают об этом современные когнитивные науки.

💼 Что и откуда мы знаем?

Многие исследования, на которых строятся выводы о процессах чтения, были проведены на материале английского языка, что неудивительно, но важно для работы с их данными. Научение чтению, особенно на ранних этапах, связано с тем, как устроена орфография языка. Орфография английского не похожа на орфографию многих других языков, поскольку она непрозрачна. Например, сочетание —ough имеет разные прочтения в английских словах tough – though – through. Первоклассники, которые учатся читать на языках с прозрачной орфографией могут обогнать сверстников, знакомящихся с чтением на английском, на первом этапе обучения.

👞 Шаг первый: «взлом» орфографического кода

Первый этап научения связан с формированием навыка устанавливать соответствия между буквами и звуками. Это позволяет узнать знакомое из устной речи слово в письменном виде. Когда орфографическая система хорошо освоена, дети способны читать как знакомые, так и незнакомые слова. На практике получается, что в самом начале необходимо систематическое обучение звуковому методу (phonics). 

👟 Шаг второй: эффективное чтение отдельных слов

Чтобы читающий не тратил много усилий на восприятие отдельных слов и сохранил ресурсы для понимания текста, ему нужно многократного прочитать слово в разных контекстах. Ещё больше опыта появляется с чтением слов из нескольких морфем (например, бодр-ость или dark-ness). Это позволяет создавать орфографические представления не только для каждого слова отдельно, но и для морфем, совпадающих у разных слов. На практике на этом этапе рекомендуется сфокусироваться на двух задачах: во-первых, помочь детям разобраться, из каких морфем состоит слово; во-вторых, сформировать мотивацию к самостоятельному чтению.

⛸️ Шаг третий: понимание текста

У детей навык понимания текста в большой степени базируется на уже имеющемся навыке понимания устной речи, но для развития понимания текста при чтении особенно важны три компонента: 
знание (орфографической системы, слов, жизненный опыт),
обработка информации, или использование знаний в процессе чтения,
общие когнитивные ресурсы, в частности, рабочая память. 

Чтобы развивать этот навык, исследователи рекомендуют проводить оценку понимания текста, чтобы вовремя выявлять трудности, обсуждать тексты с одноклассниками и учителем, помогать детям увеличивать их словарный запас и обучать детей делать логические выводы из прочитанного. 

О том, что такое ‘sight words’, как развить у ребенка внутреннюю мотивацию к чтению и какую роль в понимании текста играет знание грамматических конструкций и союзов — узнаете из полного текста статьи.
May 17, 2023