«Дисциплинировать литературоведческую мысль может только рациональный метод»: научное завещание Бориса Ярхо
Борис Исаакович Ярхо (1889–1942) — один из самых оригинальных филологов, теоретиков и историков литературы первой половины XX века. Он работал с античными, средневековыми и современными ему текстами на двух десятках языков и к концу жизни выработал концепцию «точного литературоведения» — одну из первых попыток взглянуть на литературу как на массив данных, в котором можно выделить признаки объектов и провести количественный анализ. Увы, главный труд Ярхо — «Методология точного литературоведения» – был полностью опубликован только через 64 года после его смерти, в 2006 году. Чтобы немного восстановить справедливость, «Системный Блокъ» подготовил «посмертное интервью» с ученым на основе его главной книги.
Кратко: о чем не-интервью?
План книги о точном литературоведении Ярхо начал набрасывать в 1935 году в ссылке. Он стремился положить начало новому литературоведению, которое было бы лишено «неясности и расплывчатости» и опиралось бы на статистику и эксперимент, как естественные науки. В первую очередь Ярхо ориентировался на биологию. «Литературоведение (я не уставал это повторять) есть такая же “наука о жизни”, и у нее нет причин отставать от биологии, — говорил ученый. — а между тем, оно отстает по многим основным пунктам».
Чем, по мнению Ярхо, плохо современное ему «традиционное» литературоведение?
Ярхо жаловался на отсутствие однозначной терминологии, «неумение недвусмысленно выражаться», предлагая учиться этому у физиков. Во многих областях филологической науки Ярхо видел «обывательщину», сетовал, что «литературоведы всех стран бросаются безответственными определениями». Дисциплинировать литературоведение, по мнению Ярхо, должен «рациональный метод». Тогда можно будет с цифрами на руках сказать, чем именно отличается поэзия чинквеченто от вдохновивших её текстов Петрарки, произведения трубадуров — от творчества труверов, и т.д.
Какие примеры статистических и экспериментальных исследований приводит Ярхо?
Ярхо много занимался количественным разграничением разных форм драмы. Так, он показал, что число говорящих в каждом явлении пьесы распределено по-разному в античной трагедии, в пьесах французского классического театра и в романтических пьесах (в последних допустимо гораздо большее число персонажей). Также у Ярхо немало работ с подсчетами лексики различных типов в эпических поэмах, есть статистическое исследование того, какие типы синтаксических связей чаще разрывает перенос стихотворной строки и др. Экспериментально при участии студентов Ярхо проверял некоторые закономерности стихосложения — например, предпочтение анафоры перед другими приемами в стихосложении.
При этом в своей книге ученый приводит и задумки куда более масштабных исследований, осуществить которые не удалось. Ярхо, по его собственным словам, был готов обеспечить работой целый научный институт на 100 лет вперед. Компьютеров в его время не было, поэтому любые количественные подходы были заведомо очень трудоёмкими.
Подробнее об опытах, подсчетах и экспериментах Ярхо, а также о том, какие шаги в количественной филологии ещё до Ярхо предпринимали Чернышевский, Андрей Белый и другие, узнаете из полной версии статьи.
🤖 «Системный Блокъ» @sysblok
Борис Исаакович Ярхо (1889–1942) — один из самых оригинальных филологов, теоретиков и историков литературы первой половины XX века. Он работал с античными, средневековыми и современными ему текстами на двух десятках языков и к концу жизни выработал концепцию «точного литературоведения» — одну из первых попыток взглянуть на литературу как на массив данных, в котором можно выделить признаки объектов и провести количественный анализ. Увы, главный труд Ярхо — «Методология точного литературоведения» – был полностью опубликован только через 64 года после его смерти, в 2006 году. Чтобы немного восстановить справедливость, «Системный Блокъ» подготовил «посмертное интервью» с ученым на основе его главной книги.
Кратко: о чем не-интервью?
План книги о точном литературоведении Ярхо начал набрасывать в 1935 году в ссылке. Он стремился положить начало новому литературоведению, которое было бы лишено «неясности и расплывчатости» и опиралось бы на статистику и эксперимент, как естественные науки. В первую очередь Ярхо ориентировался на биологию. «Литературоведение (я не уставал это повторять) есть такая же “наука о жизни”, и у нее нет причин отставать от биологии, — говорил ученый. — а между тем, оно отстает по многим основным пунктам».
Чем, по мнению Ярхо, плохо современное ему «традиционное» литературоведение?
Ярхо жаловался на отсутствие однозначной терминологии, «неумение недвусмысленно выражаться», предлагая учиться этому у физиков. Во многих областях филологической науки Ярхо видел «обывательщину», сетовал, что «литературоведы всех стран бросаются безответственными определениями». Дисциплинировать литературоведение, по мнению Ярхо, должен «рациональный метод». Тогда можно будет с цифрами на руках сказать, чем именно отличается поэзия чинквеченто от вдохновивших её текстов Петрарки, произведения трубадуров — от творчества труверов, и т.д.
Какие примеры статистических и экспериментальных исследований приводит Ярхо?
Ярхо много занимался количественным разграничением разных форм драмы. Так, он показал, что число говорящих в каждом явлении пьесы распределено по-разному в античной трагедии, в пьесах французского классического театра и в романтических пьесах (в последних допустимо гораздо большее число персонажей). Также у Ярхо немало работ с подсчетами лексики различных типов в эпических поэмах, есть статистическое исследование того, какие типы синтаксических связей чаще разрывает перенос стихотворной строки и др. Экспериментально при участии студентов Ярхо проверял некоторые закономерности стихосложения — например, предпочтение анафоры перед другими приемами в стихосложении.
При этом в своей книге ученый приводит и задумки куда более масштабных исследований, осуществить которые не удалось. Ярхо, по его собственным словам, был готов обеспечить работой целый научный институт на 100 лет вперед. Компьютеров в его время не было, поэтому любые количественные подходы были заведомо очень трудоёмкими.
Подробнее об опытах, подсчетах и экспериментах Ярхо, а также о том, какие шаги в количественной филологии ещё до Ярхо предпринимали Чернышевский, Андрей Белый и другие, узнаете из полной версии статьи.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
«Методология точного литературоведения». Научное завещание Бориса Ярхо
Борис Ярхо (1889–1942) — один из самых оригинальных филологов, теоретиков и историков литературы первой половины XX века. Ярхо оставался неизвестен на Западе и малоизвестен в России вплоть до начала XXI века, когда его пионерские работы по количественному…
«Гипотеза Поллианны»: насколько позитивна детская зарубежная литература?
В 1969 году Дж. Баучер и Ч. Э. Осгуд представили и обосновали идею о том, что «люди склонны видеть (и обсуждать) светлую сторону жизни». Эту тенденцию назвали «гипотезой Поллианны» в честь главной героини романа «Поллианна», жизнерадостной сироты, которая пытается найти что-то хорошее в любой ситуации. В материале рассказываем о том, как исследователи провели сентимент-анализ корпусов детской литературы, чтобы проверить эту гипотезу.
Что и как исследовали?
Чтобы провести анализ тональности детских и юношеских текстов, ученые взяли 372 англоязычные и 500 немецкоязычных книг. В качестве инструмента для исследования был выбран SentiArt, в основе которого – векторная модель, а не списки слов. У этого метода есть свои недостатки, но ученые убедились, что он всё же эффективнее альтернатив.
Что с английским корпусом?
Посмотрев на соотношение положительных и отрицательных слов в предложении, исследователи увидели, что в среднем в предложениях было больше позитивно окрашенной лексики. Среди эмоций и чувств в корпусе преобладали удивление, страх и счастье, на второй план отошли печаль, гнев и отвращение.
А что с немецким?
Книги в немецкоязычном корпусе, который был более разнообразным и репрезентативным, тоже соответствовали «принципу Поллианны». В англоязычный корпус вошли только произведения, опубликованные только до 1952 года. Немецкий же содержал в том числе более поздние книги, включая переводы всех частей Гарри Поттера и Антуана де Сент-Экзюпери.
А есть ли различия?
Основываясь на результатах сентимент-анализа и полученных данных, исследователи пришли к выводу, что англоязычный корпус имеет более выраженный позитивный уклон, чем немецкоязычный. Более того, анализ немецкоязычных текстов показал: чем современнее произведение, тем меньше там выражена позитивность.
Узнать о результатах и процессе работы подробнее, а также выяснить, подтверждает ли «гипотезу Поллианны» сама «Поллианна», можно из полной версии статьи.
Время чтения: 8,5 минут
🤖 «Системный Блокъ» @sysblok
В 1969 году Дж. Баучер и Ч. Э. Осгуд представили и обосновали идею о том, что «люди склонны видеть (и обсуждать) светлую сторону жизни». Эту тенденцию назвали «гипотезой Поллианны» в честь главной героини романа «Поллианна», жизнерадостной сироты, которая пытается найти что-то хорошее в любой ситуации. В материале рассказываем о том, как исследователи провели сентимент-анализ корпусов детской литературы, чтобы проверить эту гипотезу.
Что и как исследовали?
Чтобы провести анализ тональности детских и юношеских текстов, ученые взяли 372 англоязычные и 500 немецкоязычных книг. В качестве инструмента для исследования был выбран SentiArt, в основе которого – векторная модель, а не списки слов. У этого метода есть свои недостатки, но ученые убедились, что он всё же эффективнее альтернатив.
Что с английским корпусом?
Посмотрев на соотношение положительных и отрицательных слов в предложении, исследователи увидели, что в среднем в предложениях было больше позитивно окрашенной лексики. Среди эмоций и чувств в корпусе преобладали удивление, страх и счастье, на второй план отошли печаль, гнев и отвращение.
А что с немецким?
Книги в немецкоязычном корпусе, который был более разнообразным и репрезентативным, тоже соответствовали «принципу Поллианны». В англоязычный корпус вошли только произведения, опубликованные только до 1952 года. Немецкий же содержал в том числе более поздние книги, включая переводы всех частей Гарри Поттера и Антуана де Сент-Экзюпери.
А есть ли различия?
Основываясь на результатах сентимент-анализа и полученных данных, исследователи пришли к выводу, что англоязычный корпус имеет более выраженный позитивный уклон, чем немецкоязычный. Более того, анализ немецкоязычных текстов показал: чем современнее произведение, тем меньше там выражена позитивность.
Узнать о результатах и процессе работы подробнее, а также выяснить, подтверждает ли «гипотезу Поллианны» сама «Поллианна», можно из полной версии статьи.
Время чтения: 8,5 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Насколько позитивна детская зарубежная литература?
Как «принцип Поллианны» проявляется в зарубежной литературе для детей и подростков? Рассказываем, как при помощи сентимент-анализа и векторных моделей проверяли эту теорию.
Шум вокруг DeepSeek, «глубокий ресерч» от OpenAI, новые LLM от Google
Рассказываем, что произошло в мире ИИ за последнее время.
Шум вокруг DeepSeek
Публикация языковых моделей DeepSeek-V3 и DeepSeek-R1 произвела фурор на рынке ИИ. Ранее мы рассказывали, что стоимость обучения третьей версии LLM от DeepSeek, по заявлениям компании, в десятки раз ниже, чем у конкурирующих компаний, включая OpenAI, Meta* и Anthropic. При этом модель DeepSeek-R1 не только сопоставима с лучшими решениями по основным метрикам, но и доступна для коммерческого использования всем желающим. После выпуска приложение DeepSeek быстро заняло первое место в App Store, обогнав приложение ChatGPT.
Выход DeepSeek-R1, способной генерировать развернутые рассуждения для улучшения качества итоговых ответов, вместе с техническим описанием процесса ее разработки существенно сократил разрыв между open-source-моделями и разработками крупных технологических компаний.
Низкая стоимость и эффективность обучения DeepSeek-V3 поставили под сомнение необходимость наращивания вычислительных мощностей для создания новых моделей. Это привело к резкому падению акций компаний, разрабатывающих чипы для обучения нейросетей. В частности, к 28 января акции производителя видеокарт (GPU, на которых обучают нейросети) Nvidia упали на 17%.
На фоне ускорения гонки ИИ, отмеченной анонсом проекта Stargate и успехом китайского DeepSeek, Франция и ОАЭ объявили о совместных инвестициях 30–50 млрд евро в разработку нового дата-центра.
Автономный исследователь от OpenAI
OpenAI представила Deep Research — агента, способного самостоятельно проводить комплексные исследования по заданным темам. Сервис, работающий на основе нейросетей, может анализировать рынки, обрабатывать научные запросы, помогать в поиске книг и фильмов по описанию, а также подбирать товары по заданным параметрам.
Пользователи могут делать разнообразные запросы: от анализа аудитории мобильных приложений определенной тематики с формированием сводных таблиц до подбора сноуборда с конкретными характеристиками в определенном ценовом диапазоне. Используя поисковую систему и рассуждающую языковую модель GPT o3, сервис проводит исследование в течение 5–30 минут и предоставляет структурированный отчет с результатами.
Сейчас Deep Research доступен только пользователям с подпиской ChatGPT Pro, а со следующего месяца станет доступен и владельцам ChatGPT Plus.
Google обновила модель Gemini
Google представила вторую версию семейства языковых моделей Gemini, включающую три варианта:
1. Gemini 2.0 Pro — флагманская модель премиум-класса, у которой лучшие показатели в семействе в задачах генерации кода и решении сложных логических и математических задач. В настоящее время находится в стадии Preview.
2.Gemini 2.0 Flash — модель общего назначения для массового пользователя с более доступной ценой: 10 центов за 1 млн токенов (частей слов или целых слов).
3. Gemini 2.0 Flash-Lite — наиболее экономичная версия с ценой 7,5 центов за 1 млн токенов.
Все модели, кроме Flash-Lite, способны работать с внешними инструментами (поисковиками, средами выполнения кода, браузерами) и генерировать не только текстовый контент, но также изображения и аудио.
Ранее мы рассказывали о релизе рассуждающей модели Gemini 2.0 Flash Thinking.
🤖 «Системный Блокъ» @sysblok
*Meta признана в РФ экстремистской организацией
Рассказываем, что произошло в мире ИИ за последнее время.
Шум вокруг DeepSeek
Публикация языковых моделей DeepSeek-V3 и DeepSeek-R1 произвела фурор на рынке ИИ. Ранее мы рассказывали, что стоимость обучения третьей версии LLM от DeepSeek, по заявлениям компании, в десятки раз ниже, чем у конкурирующих компаний, включая OpenAI, Meta* и Anthropic. При этом модель DeepSeek-R1 не только сопоставима с лучшими решениями по основным метрикам, но и доступна для коммерческого использования всем желающим. После выпуска приложение DeepSeek быстро заняло первое место в App Store, обогнав приложение ChatGPT.
Выход DeepSeek-R1, способной генерировать развернутые рассуждения для улучшения качества итоговых ответов, вместе с техническим описанием процесса ее разработки существенно сократил разрыв между open-source-моделями и разработками крупных технологических компаний.
Низкая стоимость и эффективность обучения DeepSeek-V3 поставили под сомнение необходимость наращивания вычислительных мощностей для создания новых моделей. Это привело к резкому падению акций компаний, разрабатывающих чипы для обучения нейросетей. В частности, к 28 января акции производителя видеокарт (GPU, на которых обучают нейросети) Nvidia упали на 17%.
На фоне ускорения гонки ИИ, отмеченной анонсом проекта Stargate и успехом китайского DeepSeek, Франция и ОАЭ объявили о совместных инвестициях 30–50 млрд евро в разработку нового дата-центра.
Автономный исследователь от OpenAI
OpenAI представила Deep Research — агента, способного самостоятельно проводить комплексные исследования по заданным темам. Сервис, работающий на основе нейросетей, может анализировать рынки, обрабатывать научные запросы, помогать в поиске книг и фильмов по описанию, а также подбирать товары по заданным параметрам.
Пользователи могут делать разнообразные запросы: от анализа аудитории мобильных приложений определенной тематики с формированием сводных таблиц до подбора сноуборда с конкретными характеристиками в определенном ценовом диапазоне. Используя поисковую систему и рассуждающую языковую модель GPT o3, сервис проводит исследование в течение 5–30 минут и предоставляет структурированный отчет с результатами.
Сейчас Deep Research доступен только пользователям с подпиской ChatGPT Pro, а со следующего месяца станет доступен и владельцам ChatGPT Plus.
Google обновила модель Gemini
Google представила вторую версию семейства языковых моделей Gemini, включающую три варианта:
1. Gemini 2.0 Pro — флагманская модель премиум-класса, у которой лучшие показатели в семействе в задачах генерации кода и решении сложных логических и математических задач. В настоящее время находится в стадии Preview.
2.Gemini 2.0 Flash — модель общего назначения для массового пользователя с более доступной ценой: 10 центов за 1 млн токенов (частей слов или целых слов).
3. Gemini 2.0 Flash-Lite — наиболее экономичная версия с ценой 7,5 центов за 1 млн токенов.
Все модели, кроме Flash-Lite, способны работать с внешними инструментами (поисковиками, средами выполнения кода, браузерами) и генерировать не только текстовый контент, но также изображения и аудио.
Ранее мы рассказывали о релизе рассуждающей модели Gemini 2.0 Flash Thinking.
*Meta признана в РФ экстремистской организацией
Please open Telegram to view this post
VIEW IN TELEGRAM
Как можно улучшить ответы языковых моделей? Гайд по промтам
Сегодня качество ответов языковых моделей напрямую зависит от того, как сформулирован запрос. Новейшие LLM (large language model, большая языковая модель) уже неплохо справляются с неточными формулировками, но в большинстве случаев для успешной коммуникации с нейросетями всё ещё необходимы специальные методы и качественные промты. О том, как сформулировать запросы для языковых моделей, рассказываем в новом гайде.
👌🏻 Zero-shot prompting
Простые и короткие запросы к моделям приведут к выдаче простых и стандартных ответы. Например, есть запрос без примеров (zero-shot prompting): в этом случае мы рассчитываем на качество модели, на ее системные установки. Такие запросы хорошо работают для популярных запросов, для которых обучали модель (например, суммаризация текста или предварительный анализ данных).
✌🏻 One/few shot prompting
Если вы хотите получить от модели более развернутый и глубокий ответ в определенном формате/стиле, то при помощи одного или нескольких примеров (подсказок) необходимо явно показать, чего вы от нее ждете. Такой метод формулирования запросов называется one/few shot prompting. Примеры актуализирует в контексте модели более глубокие связи, которые были построены ею в процессе обучения, что в итоге помогает добиться ответа, который точнее соответствует запросу.
🙌🏻 Chain-of-Thought
Для решения сложных логических или математических задач используется техника chain-of-thought, или цепочка рассуждений (мы уже рассказывали о ней здесь). Простейший способ задействовать эту технику — прямо обозначить ее в запросе, используя выражения-маркеры вроде: «Давай думать шаг за шагом». В более сложных случаях можно задать для модели логику рассуждения, последовательность действий и этапы проверки.
Сравнить ответы языковой модели на одни и те же запросы, сформулированные с помощью разных методов, и узнать, что мотивировало ChatGPT-4o написать в обращении письма «Многоуважаемый и всечестнейший Профессор», можно, перейдя к полной версии статьи.
🤖 «Системный Блокъ» @sysblok
Сегодня качество ответов языковых моделей напрямую зависит от того, как сформулирован запрос. Новейшие LLM (large language model, большая языковая модель) уже неплохо справляются с неточными формулировками, но в большинстве случаев для успешной коммуникации с нейросетями всё ещё необходимы специальные методы и качественные промты. О том, как сформулировать запросы для языковых моделей, рассказываем в новом гайде.
👌🏻 Zero-shot prompting
Простые и короткие запросы к моделям приведут к выдаче простых и стандартных ответы. Например, есть запрос без примеров (zero-shot prompting): в этом случае мы рассчитываем на качество модели, на ее системные установки. Такие запросы хорошо работают для популярных запросов, для которых обучали модель (например, суммаризация текста или предварительный анализ данных).
✌🏻 One/few shot prompting
Если вы хотите получить от модели более развернутый и глубокий ответ в определенном формате/стиле, то при помощи одного или нескольких примеров (подсказок) необходимо явно показать, чего вы от нее ждете. Такой метод формулирования запросов называется one/few shot prompting. Примеры актуализирует в контексте модели более глубокие связи, которые были построены ею в процессе обучения, что в итоге помогает добиться ответа, который точнее соответствует запросу.
🙌🏻 Chain-of-Thought
Для решения сложных логических или математических задач используется техника chain-of-thought, или цепочка рассуждений (мы уже рассказывали о ней здесь). Простейший способ задействовать эту технику — прямо обозначить ее в запросе, используя выражения-маркеры вроде: «Давай думать шаг за шагом». В более сложных случаях можно задать для модели логику рассуждения, последовательность действий и этапы проверки.
Сравнить ответы языковой модели на одни и те же запросы, сформулированные с помощью разных методов, и узнать, что мотивировало ChatGPT-4o написать в обращении письма «Многоуважаемый и всечестнейший Профессор», можно, перейдя к полной версии статьи.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Промты для нейросетей: как писать идеальные запросы к LLM
Рассказываем в нашем гайде про промт-инжиниринг и о том, как писать промты для нейросетей (LLM). Можно ли повысить качество ответов языковых моделей с помощью промтов? Как сделать так, чтобы их ответы следовали определенному формату? Как заставить модели…
Их Римская империя: жизнь и связи древних римлян в просопографических базах данных
Просопография — это историческая дисциплина, которая собирает, структурирует и исследует данные о людях, живших в конкретный исторический период в конкретном регионе. «Системный Блокъ» на примере проекта Romans 1by1 рассказывает о создании просопрографических баз данных и какие драматические истории они могут скрывать
Кратко: о чем статья?
Изначально составители просопографий интересовались людьми более-менее известными, а спустя время просопографические базы данных стали рассказывать и об обычных людях с их повседневной жизнью. Например, классическая «Просопография поздней Римской империи» содержит сведения о государственных и военных служащих Рима, врачах, юристах или философах. А более поздняя Prosopography of the Byzantine World включает данные о торговцах, пекарях или пиратах.
Просопография Romans One by One — реляционная база данных, в ней все организовано по табличному принципу. Например, таблица Personal Data содержит информацию об имени и когномене человека (индивидуальном прозвище), его происхождении, роде занятий и многом другом. Такую базу данных можно представить в виде графовой модели — схематического изображения сетей связей и отношений.
Графовые модели легко адаптировать под разные исследовательские задачи, они позволяют увидеть связи человека, сообщества, к которым он принадлежал, или его индивидуальные перемещения в конкретном регионе. Например, в городе Напока графовая модель позволила «выявить» династию выходцев из Малой Азии, а у римского проконсула Гая Овиния Тертуллия не оказалось никаких социальных связей вообще, зато множество достижений в строительстве дорог.
Более подробно о том, какие исследовательские задачи можно решать с просопографическими базами данных, а также о других интересных историях, которые они содержат, читайте в полной версии статьи.
Время чтения: 12 минут.
🤖 «Системный Блокъ» @sysblok
Просопография — это историческая дисциплина, которая собирает, структурирует и исследует данные о людях, живших в конкретный исторический период в конкретном регионе. «Системный Блокъ» на примере проекта Romans 1by1 рассказывает о создании просопрографических баз данных и какие драматические истории они могут скрывать
Кратко: о чем статья?
Изначально составители просопографий интересовались людьми более-менее известными, а спустя время просопографические базы данных стали рассказывать и об обычных людях с их повседневной жизнью. Например, классическая «Просопография поздней Римской империи» содержит сведения о государственных и военных служащих Рима, врачах, юристах или философах. А более поздняя Prosopography of the Byzantine World включает данные о торговцах, пекарях или пиратах.
Просопография Romans One by One — реляционная база данных, в ней все организовано по табличному принципу. Например, таблица Personal Data содержит информацию об имени и когномене человека (индивидуальном прозвище), его происхождении, роде занятий и многом другом. Такую базу данных можно представить в виде графовой модели — схематического изображения сетей связей и отношений.
Графовые модели легко адаптировать под разные исследовательские задачи, они позволяют увидеть связи человека, сообщества, к которым он принадлежал, или его индивидуальные перемещения в конкретном регионе. Например, в городе Напока графовая модель позволила «выявить» династию выходцев из Малой Азии, а у римского проконсула Гая Овиния Тертуллия не оказалось никаких социальных связей вообще, зато множество достижений в строительстве дорог.
Более подробно о том, какие исследовательские задачи можно решать с просопографическими базами данных, а также о других интересных историях, которые они содержат, читайте в полной версии статьи.
Время чтения: 12 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Жизнь и связи древних римлян: о чем могут рассказать просопографические базы данных?
Просопография занимается тем, что собирает данные о жизни и связях людей прошлого. Оцифрованные просопографические базы могут много рассказать о круге общения или перемещениях целых социальных групп или классов. На примере проекта Romans One by One рассказываем…
Какие языковые модели (LLM) хорошо пересказывают истории
Способны ли LLM пересказать и проинтерпретировать художественный текст без ошибок? Ведь повествование в произведении может быть нелинейным и недостоверным — от ненадежного рассказчика, язык — меняющимся, а детали — важными и второстепенными. Ученые Колумбийского университета провели эксперимент по суммаризации рассказов, а мы делимся с вами его результатами!
Что за эксперимент?
Суммаризация — это автоматическое составление краткого пересказа. Она бывает двух видов: экстрактивная и абстрактивная. В первом случае из текста извлекаются наиболее важные отрывки в неизменном виде, во втором — генерируется новый текст на основе заданного.
Чтобы узнать, как с задачей суммаризации справятся LLM, ученые решили взять тексты, которые модели точно никогда не видели. В этом помогли реальные писатели, предоставившие свои еще не выложенные онлайн и никем не обсуждавшиеся публично произведения. Так, 25 текстов девяти авторов предложили пересказать GPT-4, Llama-2-70B-chat* и Claude-2.1.
Как тестировали модели?
Для Claude и GPT-4 использовался одинаковый промпт (текстовая затравка), поскольку их контекстное окно позволяет обрабатывать каждый из рассказов целиком. Интересно, что Claude отказалась суммаризовать два произведения: они содержали неэтичный (по ее настройкам) контент.
Llama* же принимает более короткие тексты, поэтому средние и длинные рассказы делились на несколько отрывков по разделам или параграфам. Сначала модель пересказывала каждый из фрагментов, а затем генерировала финальный вариант по соединенным промежуточным саммари. Затем каждый пересказ оценивался по четырем критериям:
- охват — упоминание важных сюжетных точек.
- достоверность — наличие несуществующих в исходном тексте деталей или искажение истории;
- связность текста;
- анализ — наличие верной интерпретации главного посыла или темы рассказа
Какие результаты?
GPT-4 и Claude смогли предоставить идеальные саммари, но только в половине случаев. Кроме того, пересказы первой модели лидировали по всем параметрам. А вот Llama по всем критериям проиграла.
Кстати, оценивали получившиеся пересказы не только авторы рассказов, но и… сами модели! Узнать, справились ли LLM со своей задачей по собственному мнению (спойлер: конечно, они завысили себе оценки), можно из полного текста материала.
Время чтения: 11,5 минут
*Компания Meta признана экстремистской и запрещенной на территории РФ.
🤖 «Системный Блокъ» @sysblok
Способны ли LLM пересказать и проинтерпретировать художественный текст без ошибок? Ведь повествование в произведении может быть нелинейным и недостоверным — от ненадежного рассказчика, язык — меняющимся, а детали — важными и второстепенными. Ученые Колумбийского университета провели эксперимент по суммаризации рассказов, а мы делимся с вами его результатами!
Что за эксперимент?
Суммаризация — это автоматическое составление краткого пересказа. Она бывает двух видов: экстрактивная и абстрактивная. В первом случае из текста извлекаются наиболее важные отрывки в неизменном виде, во втором — генерируется новый текст на основе заданного.
Чтобы узнать, как с задачей суммаризации справятся LLM, ученые решили взять тексты, которые модели точно никогда не видели. В этом помогли реальные писатели, предоставившие свои еще не выложенные онлайн и никем не обсуждавшиеся публично произведения. Так, 25 текстов девяти авторов предложили пересказать GPT-4, Llama-2-70B-chat* и Claude-2.1.
Как тестировали модели?
Для Claude и GPT-4 использовался одинаковый промпт (текстовая затравка), поскольку их контекстное окно позволяет обрабатывать каждый из рассказов целиком. Интересно, что Claude отказалась суммаризовать два произведения: они содержали неэтичный (по ее настройкам) контент.
Llama* же принимает более короткие тексты, поэтому средние и длинные рассказы делились на несколько отрывков по разделам или параграфам. Сначала модель пересказывала каждый из фрагментов, а затем генерировала финальный вариант по соединенным промежуточным саммари. Затем каждый пересказ оценивался по четырем критериям:
- охват — упоминание важных сюжетных точек.
- достоверность — наличие несуществующих в исходном тексте деталей или искажение истории;
- связность текста;
- анализ — наличие верной интерпретации главного посыла или темы рассказа
Какие результаты?
GPT-4 и Claude смогли предоставить идеальные саммари, но только в половине случаев. Кроме того, пересказы первой модели лидировали по всем параметрам. А вот Llama по всем критериям проиграла.
Кстати, оценивали получившиеся пересказы не только авторы рассказов, но и… сами модели! Узнать, справились ли LLM со своей задачей по собственному мнению (спойлер: конечно, они завысили себе оценки), можно из полного текста материала.
Время чтения: 11,5 минут
*Компания Meta признана экстремистской и запрещенной на территории РФ.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как большие языковые модели справляются с суммаризацией художественных произведений?
Может ли искусственный интеллект составить саммари произведения? Насколько точен пересказ, сделанный ChatGPT, и чем может быть полезен ИИ для писателей?
Пушкин цифровой: два века работы в одном интерактивном издании
Александр Пушкин — один из самых изученных писателей. Есть тысячи работ, посвященных ему и его текстам. Исследователи из Пушкинского Дома подсчитали, что только для прочтения всего объема пушкинистики потребуется около 58 лет. А чтобы проанализировать этот объем вручную, нужно еще больше времени. Пушкин ⟨цифровой⟩ (@pushkin_digital) решает эту проблему: цифровые методы обработки текстов и поиска связей между ними помогают быстро и эффективно работать с текстами как самого Пушкина, так и его исследователей.
Кратко: что это за проект?
Пушкин ⟨цифровой⟩ — уже третье семантическое издание текстов и персоналий «большой литературы» в русскоязычном веб-пространстве (есть ещё «Слово Толстого» от команды Tolstoy Digital и Chekhov Digital, о котором «Системный Блокъ» писал здесь и здесь). Над созданием проекта о Пушкине параллельно работают Институт русской литературы (Пушкинский Дом) и Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, а DH-центр ИТМО разрабатывает интерфейсы для навигации, чтения и изучения материалов.
На сайте проекта можно найти основные тексты произведений Пушкина, его рукописи и материалы академического пушкиноведения с середины XIX века и до наших дней. В отдельном разделе представлены тексты-путеводители, которые помогут современному читателю лучше понять контекст произведений. Там, например, можно выяснить, что в стихотворении «Я помню чудное мгновенье…» Пушкин позаимствовал у Жуковского, Баратынского и Батюшкова, а также какой была в жизни вдохновившая это стихотворение Анна Керн.
Путеводители раскрывают культурный контекст, биографию людей пушкинского круга и поэтику текстов. Они параллельны и связаны одновременно. Каждый можно прочесть отдельно как лонгрид (на странице даже указано время чтения), а можно изучать все три слоя одновременно, листая само произведение и переходя по ссылкам.
Узнать, какие возможности открывает работа с порталом, как она устроена и какие дальнейшие планы есть у создателей проекта, можно из полной версии статьи.
Время чтения: 10,5 минут
🤖 «Системный Блокъ» @sysblok
Александр Пушкин — один из самых изученных писателей. Есть тысячи работ, посвященных ему и его текстам. Исследователи из Пушкинского Дома подсчитали, что только для прочтения всего объема пушкинистики потребуется около 58 лет. А чтобы проанализировать этот объем вручную, нужно еще больше времени. Пушкин ⟨цифровой⟩ (@pushkin_digital) решает эту проблему: цифровые методы обработки текстов и поиска связей между ними помогают быстро и эффективно работать с текстами как самого Пушкина, так и его исследователей.
Кратко: что это за проект?
Пушкин ⟨цифровой⟩ — уже третье семантическое издание текстов и персоналий «большой литературы» в русскоязычном веб-пространстве (есть ещё «Слово Толстого» от команды Tolstoy Digital и Chekhov Digital, о котором «Системный Блокъ» писал здесь и здесь). Над созданием проекта о Пушкине параллельно работают Институт русской литературы (Пушкинский Дом) и Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, а DH-центр ИТМО разрабатывает интерфейсы для навигации, чтения и изучения материалов.
На сайте проекта можно найти основные тексты произведений Пушкина, его рукописи и материалы академического пушкиноведения с середины XIX века и до наших дней. В отдельном разделе представлены тексты-путеводители, которые помогут современному читателю лучше понять контекст произведений. Там, например, можно выяснить, что в стихотворении «Я помню чудное мгновенье…» Пушкин позаимствовал у Жуковского, Баратынского и Батюшкова, а также какой была в жизни вдохновившая это стихотворение Анна Керн.
Путеводители раскрывают культурный контекст, биографию людей пушкинского круга и поэтику текстов. Они параллельны и связаны одновременно. Каждый можно прочесть отдельно как лонгрид (на странице даже указано время чтения), а можно изучать все три слоя одновременно, листая само произведение и переходя по ссылкам.
Узнать, какие возможности открывает работа с порталом, как она устроена и какие дальнейшие планы есть у создателей проекта, можно из полной версии статьи.
Время чтения: 10,5 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Пушкин : два века работы в одном интерактивном издании
Возможно ли собрать двухсотлетнее наследие Пушкина и пушкинистики в единую систему? Ответ — в статье. Рассказываем о проекте, который сэкономит фанатам поэта 58 лет чтения.
DeepSeek-V3: коротко о главном
Если вы следите за новостями из мира ИИ, то точно слышали о DeepSeek-V3 — новой версии языковой модели, которая стремительно набирает популярность у пользователей по всему миру.
DeepSeek-V3 — аналог GPT-4o от китайской компании DeepSeek. Сейчас это модель «по умолчанию» в приложении DeepSeek, если не переключаться на более новую R1. По качеству текстовых ответов DeepSeek-V3 сопоставима с моделью от OpenAI, но гораздо дешевле в использовании.
В отличие от большинства других LLM модель обучали предсказывать не один следующий токен (часть слова или целое слово), а сразу несколько подряд идущих. Это позволяет ускорить генерацию ответа на запросы пользователей.
Еще одна особенность архитектуры — использование подхода Mixture-of-Experts (MoE). Модель задействует только небольшую часть своих параметров во время генерации ответа на запрос, что делает ее экономичнее в потреблении вычислительных ресурсов.
Чтобы вы могли максимально быстро разобраться, что это за нейросеть и где её используют, мы обновили наш каталог и добавили туда карточку с краткой информацией о DeepSeek-V3.
Кстати, а что вы уже о ней знаете? Предлагаем проверить в нашей небольшой викторине.
🤖 «Системный Блокъ» @sysblok
Если вы следите за новостями из мира ИИ, то точно слышали о DeepSeek-V3 — новой версии языковой модели, которая стремительно набирает популярность у пользователей по всему миру.
DeepSeek-V3 — аналог GPT-4o от китайской компании DeepSeek. Сейчас это модель «по умолчанию» в приложении DeepSeek, если не переключаться на более новую R1. По качеству текстовых ответов DeepSeek-V3 сопоставима с моделью от OpenAI, но гораздо дешевле в использовании.
В отличие от большинства других LLM модель обучали предсказывать не один следующий токен (часть слова или целое слово), а сразу несколько подряд идущих. Это позволяет ускорить генерацию ответа на запросы пользователей.
Еще одна особенность архитектуры — использование подхода Mixture-of-Experts (MoE). Модель задействует только небольшую часть своих параметров во время генерации ответа на запрос, что делает ее экономичнее в потреблении вычислительных ресурсов.
Чтобы вы могли максимально быстро разобраться, что это за нейросеть и где её используют, мы обновили наш каталог и добавили туда карточку с краткой информацией о DeepSeek-V3.
Кстати, а что вы уже о ней знаете? Предлагаем проверить в нашей небольшой викторине.
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейролингвистика и Альцгеймер: ИИ учится диагностировать болезнь по речи
Болезнь Альцгеймера (БА) — заболевание, которое вызывает гибель клеток головного мозга. Со временем когнитивные способности человека начинают ухудшаться: появляются провалы в памяти, проблемы с речью и трудности с ориентированием в пространстве. Традиционные методы диагностики этого заболевания недостаточно эффективны. Рассказываем, как с этой задачей учится справляться искусственный интеллект.
Кратко: о чем статья?
Методы выявления болезни Альцгеймера (БА) можно разделить на две группы: дорогостоящие и сложные, но дающие точный результат, и более доступные и простые, но менее достоверные. В первую категорию входят методы нейровизуализации — позитронно-эмиссионная томография (ПЭТ) и магнитно-резонансная томография (МРТ). Во вторую — опросники для оценки когнитивных функций и нейропсихологические тесты.
При этом исследования последних лет показали, что на ранних стадиях болезни Альцгеймера можно заметить небольшие речевые нарушения, которые возникают за много лет до того, как появятся другие когнитивные ухудшения. Например, аномия — затруднение в подборе конкретных слов, вроде использования «фрукт» вместо «яблоко». Отследить такие изменения врачам сложно, но с ними должны помочь методы обработки естественного языка (NLP) и распознавания речи.
Для обучения машинных моделей применяются наборы данных, созданные специально для выявления когнитивных нарушений, связанных с БА. Уже сейчас точность распознавания болезни по речи с помощью нейронных сетей составляет не менее 70,7%. А наивысшую точность классификации — 97,18% — продемонстрировала нейросеть-трансформер BERT, дообученная на автоматически расшифрованных записях речи.
И всё же автоматическая диагностика не идеальна. Во-первых, большая часть датасетов составлена на английском, так что для неанглоязычных пациентов модель будет работать плохо. Во-вторых, на данный момент датасеты имеют небольшие размеры.
Подробнее об обучении моделей, о значимости ранней диагоностике БА и о других методах распознавания болезни на разных стадиях узнаете из полной версии статьи.
Время чтения: 11 минут
🤖 «Системный Блокъ» @sysblok
Болезнь Альцгеймера (БА) — заболевание, которое вызывает гибель клеток головного мозга. Со временем когнитивные способности человека начинают ухудшаться: появляются провалы в памяти, проблемы с речью и трудности с ориентированием в пространстве. Традиционные методы диагностики этого заболевания недостаточно эффективны. Рассказываем, как с этой задачей учится справляться искусственный интеллект.
Кратко: о чем статья?
Методы выявления болезни Альцгеймера (БА) можно разделить на две группы: дорогостоящие и сложные, но дающие точный результат, и более доступные и простые, но менее достоверные. В первую категорию входят методы нейровизуализации — позитронно-эмиссионная томография (ПЭТ) и магнитно-резонансная томография (МРТ). Во вторую — опросники для оценки когнитивных функций и нейропсихологические тесты.
При этом исследования последних лет показали, что на ранних стадиях болезни Альцгеймера можно заметить небольшие речевые нарушения, которые возникают за много лет до того, как появятся другие когнитивные ухудшения. Например, аномия — затруднение в подборе конкретных слов, вроде использования «фрукт» вместо «яблоко». Отследить такие изменения врачам сложно, но с ними должны помочь методы обработки естественного языка (NLP) и распознавания речи.
Для обучения машинных моделей применяются наборы данных, созданные специально для выявления когнитивных нарушений, связанных с БА. Уже сейчас точность распознавания болезни по речи с помощью нейронных сетей составляет не менее 70,7%. А наивысшую точность классификации — 97,18% — продемонстрировала нейросеть-трансформер BERT, дообученная на автоматически расшифрованных записях речи.
И всё же автоматическая диагностика не идеальна. Во-первых, большая часть датасетов составлена на английском, так что для неанглоязычных пациентов модель будет работать плохо. Во-вторых, на данный момент датасеты имеют небольшие размеры.
Подробнее об обучении моделей, о значимости ранней диагоностике БА и о других методах распознавания болезни на разных стадиях узнаете из полной версии статьи.
Время чтения: 11 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Анализ речи: как ИИ выявляет ранние признаки болезни Альцгеймера
Как искусственный интеллект помогает в ранней диагностике болезни Альцгеймера? Может ли анализ речи выявить первые симптомы нейродегенеративных заболеваний? И какие цифровые инструменты улучшат точность диагностики? Ответы на эти и другие вопросы ищите в…
Новая LLM от Маска, генератор видео от Google стал доступен, стартап от бывшей техдиректрисы OpenAI
Рассказываем, что произошло в мире ИИ за последнее время.
Grok 3 — новая LLM от xAI
Лаборатория xAI Илона Маска представила обновленную языковую модель Grok 3. Ключевое улучшение — появление режима «рассуждений». Как и другие современные модели (OpenAI o1/o3, DeepSeek-R1, Gemini 2 Flash Thinking), Grok 3 использует цепочки логических построений для повышения качества ответов. По результатам основных тестов новая версия не уступает ведущим аналогам.
Компания также запустила сервис DeepSearch, формирующий развернутые отчеты по результатам поиска на заданную тему. Подобных автономных исследовательских агентов ранее представили OpenAI (Deep Research) и Perplexity.
Доступ к Grok 3 открыт для подписчиков X Premium и X Premium+. Расширенная подписка включает режим рассуждений и DeepSearch. В дальнейшем эти функции планируется сделать доступными и для базовых подписчиков.
Нейросеть для генерации видео от Google
На платформе fal стала доступна модель Veo 2 от Google DeepMind, позволяющая создавать видеоролики на основе текстовых описаний. Генерация 5-секундного видео обойдется в $2,5, с доплатой $0,5 за каждую дополнительную секунду.
Первая версия Veo была выпущена летом 2024 года в качестве ответа OpenAI Sora, но была доступна лишь ограниченному числу пользователей. В декабре того же года вышла значительно усовершенствованная вторая версия, которая на сегодняшний день превосходит конкурентов по реалистичности создаваемого контента.
Недавно Veo 2 стала доступна при редактировании YouTube Shots — с помощью модели можно по текстовому описанию сгенерировать фон для видео.
Гибкий и полезный ИИ от бывшей техдиректрисы OpenAI
Бывшая техническая директриса OpenAI Мира Мурати анонсировала запуск своего стартапа Thinking Machines.
По ее словам, сегодня существует значительный разрыв между возможностями ИИ-систем и пониманием их внутренних механизмов. Также информация о деталях создания продвинутых ИИ-систем остается только внутри нескольких ведущих компаний, что затрудняет восприятие этих нейросетей обществом и ограничивает эффективность применения. Thinking Machines намерена преодолеть этот барьер, сделав ИИ более прозрачным и доступным для пользователей.
Ключевые направления деятельности компании:
• регулярная публикация технической документации, научных исследований и программного кода,
• разработка набора специализированных ИИ-систем для совместной работы с человеком вместо создания единой автономной универсальной платформы,
• расширение сферы применения ИИ за пределы решения задач по математике и программированию.
В команду Thinking Machines вошли специалисты из ведущих технологических компаний: Джон Шульман (бывший сооснователь и ведущий исследователь OpenAI), экс-руководитель серверной инфраструктуры Meta, бывшая глава отдела мультимодальных ИИ-систем Mistral, а также много других именитых людей.
🤖 «Системный Блокъ» @sysblok
Рассказываем, что произошло в мире ИИ за последнее время.
Grok 3 — новая LLM от xAI
Лаборатория xAI Илона Маска представила обновленную языковую модель Grok 3. Ключевое улучшение — появление режима «рассуждений». Как и другие современные модели (OpenAI o1/o3, DeepSeek-R1, Gemini 2 Flash Thinking), Grok 3 использует цепочки логических построений для повышения качества ответов. По результатам основных тестов новая версия не уступает ведущим аналогам.
Компания также запустила сервис DeepSearch, формирующий развернутые отчеты по результатам поиска на заданную тему. Подобных автономных исследовательских агентов ранее представили OpenAI (Deep Research) и Perplexity.
Доступ к Grok 3 открыт для подписчиков X Premium и X Premium+. Расширенная подписка включает режим рассуждений и DeepSearch. В дальнейшем эти функции планируется сделать доступными и для базовых подписчиков.
Нейросеть для генерации видео от Google
На платформе fal стала доступна модель Veo 2 от Google DeepMind, позволяющая создавать видеоролики на основе текстовых описаний. Генерация 5-секундного видео обойдется в $2,5, с доплатой $0,5 за каждую дополнительную секунду.
Первая версия Veo была выпущена летом 2024 года в качестве ответа OpenAI Sora, но была доступна лишь ограниченному числу пользователей. В декабре того же года вышла значительно усовершенствованная вторая версия, которая на сегодняшний день превосходит конкурентов по реалистичности создаваемого контента.
Недавно Veo 2 стала доступна при редактировании YouTube Shots — с помощью модели можно по текстовому описанию сгенерировать фон для видео.
Гибкий и полезный ИИ от бывшей техдиректрисы OpenAI
Бывшая техническая директриса OpenAI Мира Мурати анонсировала запуск своего стартапа Thinking Machines.
По ее словам, сегодня существует значительный разрыв между возможностями ИИ-систем и пониманием их внутренних механизмов. Также информация о деталях создания продвинутых ИИ-систем остается только внутри нескольких ведущих компаний, что затрудняет восприятие этих нейросетей обществом и ограничивает эффективность применения. Thinking Machines намерена преодолеть этот барьер, сделав ИИ более прозрачным и доступным для пользователей.
Ключевые направления деятельности компании:
• регулярная публикация технической документации, научных исследований и программного кода,
• разработка набора специализированных ИИ-систем для совместной работы с человеком вместо создания единой автономной универсальной платформы,
• расширение сферы применения ИИ за пределы решения задач по математике и программированию.
В команду Thinking Machines вошли специалисты из ведущих технологических компаний: Джон Шульман (бывший сооснователь и ведущий исследователь OpenAI), экс-руководитель серверной инфраструктуры Meta, бывшая глава отдела мультимодальных ИИ-систем Mistral, а также много других именитых людей.
Please open Telegram to view this post
VIEW IN TELEGRAM
От периодики до личных документов: как работает контент-анализ исторических источников?
Контент-анализ — один из основных методов работы с данными на основе компьютерных вычислений. Его суть заключается в том, что информация из качественной переводится в количественную, а результаты подсчитываются. Но как возможно трансформировать воспоминания, публикации в газете или анекдоты в цифры? Рассказываем в новом материале,
Кратко: о чем статья?
Применяя метод контент-анализа к историческим документам, исследователи выделяют из массива информации повторяющиеся элементы — это могут быть словосочетания, имена, географические названия. Благодаря такому подходу можно больше узнать, например, о характере исторических личностей и даже о повседневной жизни… в советском трудовом лагере. Если для решения первой задачи можно обратиться к мемуарам и перепискам, то для второй отлично подойдет периодика.
К. А. Зингис изучила газету «Новые Соловки», которая издавалась заключенными во второй половине 1920-х гг. Для начала она выделила смысловые категории, описывающие будни заключенных: «работа», «культура», «санитария», «наука», «любовь», «женщины в лагере», «монастырь» и т. д. После – отобразила перемены в содержании газеты с помощью облака тегов, отражающего наиболее характерные (то есть часто используемые) для каждого периода слова. Это позволило наглядно проследить, как газета из пространства для творческой самореализации превратилась в инструмент идеологического воздействия.
Контент-анализ позволяет также проводить сравнительные исследования. Например, Е. А. Еремеева решила сопоставить образы, характерные для официального и неофициального юмора в советский период. Для этого она изучила советские журналы и анекдоты и выяснила, что через юмор осуществлялся диалог между народом и властью. В официальном журнале «Перец» преобладала категория «советские граждане», а неофициальный юмор чаще всего затрагивал тему «советское руководство».
О других примерах применения контент-анализа для изучении истории и о том, остается ли в таких исследованиях фактор субъективности, узнаете из полной версии статьи.
Время чтения: 7,5 минут
🤖 «Системный Блокъ» @sysblok
Контент-анализ — один из основных методов работы с данными на основе компьютерных вычислений. Его суть заключается в том, что информация из качественной переводится в количественную, а результаты подсчитываются. Но как возможно трансформировать воспоминания, публикации в газете или анекдоты в цифры? Рассказываем в новом материале,
Кратко: о чем статья?
Применяя метод контент-анализа к историческим документам, исследователи выделяют из массива информации повторяющиеся элементы — это могут быть словосочетания, имена, географические названия. Благодаря такому подходу можно больше узнать, например, о характере исторических личностей и даже о повседневной жизни… в советском трудовом лагере. Если для решения первой задачи можно обратиться к мемуарам и перепискам, то для второй отлично подойдет периодика.
К. А. Зингис изучила газету «Новые Соловки», которая издавалась заключенными во второй половине 1920-х гг. Для начала она выделила смысловые категории, описывающие будни заключенных: «работа», «культура», «санитария», «наука», «любовь», «женщины в лагере», «монастырь» и т. д. После – отобразила перемены в содержании газеты с помощью облака тегов, отражающего наиболее характерные (то есть часто используемые) для каждого периода слова. Это позволило наглядно проследить, как газета из пространства для творческой самореализации превратилась в инструмент идеологического воздействия.
Контент-анализ позволяет также проводить сравнительные исследования. Например, Е. А. Еремеева решила сопоставить образы, характерные для официального и неофициального юмора в советский период. Для этого она изучила советские журналы и анекдоты и выяснила, что через юмор осуществлялся диалог между народом и властью. В официальном журнале «Перец» преобладала категория «советские граждане», а неофициальный юмор чаще всего затрагивал тему «советское руководство».
О других примерах применения контент-анализа для изучении истории и о том, остается ли в таких исследованиях фактор субъективности, узнаете из полной версии статьи.
Время чтения: 7,5 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Контент-анализ в истории: примеры исследований
Рассказываем, как историки применяют цифровые методы, а именно контент-анализ. Изучение анекдотов, визуализация текстовых данных в новостях и другие исторические исследования — в материале «Системного Блока».
Нагугли мелодию: поисковики для музыкантов
Бывает ли у вас, что в голове засела знакомая мелодия, а название ускользает? Не беда! Рассказываем про поисковики, в которых можно сыграть фрагмент на виртуальной клавиатуре, напеть мелодию или настучать ритм!
🎹 IncipitSearch
IncipitSearch — это метапоисковик, который ищет информацию по нотным текстам, доступным в открытых базах данных. Сейчас он подключен к нескольким крупным музыкальным хранилищам, которые позволяют пользователям найти произведения классической музыки по небольшим фрагментам. Правда, придется наиграть мелодию на виртуальной клавиатуре, но хватит и совсем небольшого отрывка. Например, по девяти нотам ми-фа-соль-соль-соль-до-до-си-си поисковик легко обнаружит арию Орфея из оперы Глюка.
🎤 Musipedia
Если вы не можете наиграть произведение, попробуйте найти его в Musipedia: здесь есть целых пять вариантов поиска, включая возможность напеть или насвистеть мелодию в микрофон и настучать её ритм на клавиатуре. Плюс, спектр композиций здесь значительно шире: от сонат Бетховена до The Rolling Stones. Подробнее о Musipedia мы, кстати, писали здесь.
🤖 «Системный Блокъ» @sysblok
Бывает ли у вас, что в голове засела знакомая мелодия, а название ускользает? Не беда! Рассказываем про поисковики, в которых можно сыграть фрагмент на виртуальной клавиатуре, напеть мелодию или настучать ритм!
🎹 IncipitSearch
IncipitSearch — это метапоисковик, который ищет информацию по нотным текстам, доступным в открытых базах данных. Сейчас он подключен к нескольким крупным музыкальным хранилищам, которые позволяют пользователям найти произведения классической музыки по небольшим фрагментам. Правда, придется наиграть мелодию на виртуальной клавиатуре, но хватит и совсем небольшого отрывка. Например, по девяти нотам ми-фа-соль-соль-соль-до-до-си-си поисковик легко обнаружит арию Орфея из оперы Глюка.
🎤 Musipedia
Если вы не можете наиграть произведение, попробуйте найти его в Musipedia: здесь есть целых пять вариантов поиска, включая возможность напеть или насвистеть мелодию в микрофон и настучать её ритм на клавиатуре. Плюс, спектр композиций здесь значительно шире: от сонат Бетховена до The Rolling Stones. Подробнее о Musipedia мы, кстати, писали здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Нагугли мелодию: поисковик для музыкантов — «Системный Блокъ»
Как найти музыкальное произведение по нескольким первым нотам? Теперь его можно наиграть прямо в браузере.
Как это будет по-русски? Цифровые технологии для изучения русского как иностранного
20 декабря 2024 года Совет Федерации одобрил закон, согласно которому дети мигрантов, не владеющие русским языком, не смогут быть зачислены в школы. Теперь иностранным ученикам нужно не только иметь документы, подтверждающие их легальное пребывание в России, но и сдавать тест на знание русского. Рассказываем, как сделать изучение изучение РКИ (русского как иностранного) интереснее и продуктивнее с помощью цифровых инструментов.
🎤 Буквы и звуки
Изучение любого языка начинается со знакомства с алфавитом и правилами чтения. Познакомиться с русским алфавитом, произношением и написанием букв поможет интерактивная таблица от проекта Russian For Everyone. В таблице к каждой букве добавлен пример со словом с выделенной ударной гласной, а также картинка, позволяющая лучше запомнить слово.
📖 Лексика и чтение
Большое значение в изучении языка имеет расширение словарного запаса, регулярное повторение выученных слов и навык чтения. Для развития этих навыков и предназначена онлайн-платформа Readlang, а сайт RussianGram облегчит понимание и чтение текста, расставив в нем все ударения.
📝 Письмо
Сайт Tobemum предлагает онлайн-генератор, где учителя и родители могут создавать прописи, адаптированные под потребности и уровень подготовки учащегося. Ученикам постарше для проверки орфографии, пунктуации, грамматики и стилистики текстов поможет онлайн-сервис Орфограммка. Программа не только выделяет ошибки, но и дает пояснения к каждой.
🎧 Аудирование
Еще один важный навык — умение воспринимать речь на слух. Сформировать его помогут подкасты от проекта Very Much Russian, слушая которые, можно одновременно учить разные слова, поговорки, шутки и песни.
☑️ Создание заданий и тестов
Одна из самых полезных программ для создания заданий и тестов — Hot Potatoes, позволяющая создавать задания в виде кроссвордов, с заполнением пропусков, тесты на установление соответствий или с выбором альтернативных и коротких ответов и упражнения с перепутанными предложениями. А создать анимированные уроки можно с помощью Animaker — это онлайн-платформа для создания видео с простым интерфейсом и возможностью конструировать своих персонажей.
Ещё больше цифровых инструментов для развития и тренировки разных языковых компетенций, а также для того, чтобы сделать уроки разнообразнее и увлекательнее, найдете в полной версии подборки.
🤖 «Системный Блокъ» @sysblok
20 декабря 2024 года Совет Федерации одобрил закон, согласно которому дети мигрантов, не владеющие русским языком, не смогут быть зачислены в школы. Теперь иностранным ученикам нужно не только иметь документы, подтверждающие их легальное пребывание в России, но и сдавать тест на знание русского. Рассказываем, как сделать изучение изучение РКИ (русского как иностранного) интереснее и продуктивнее с помощью цифровых инструментов.
🎤 Буквы и звуки
Изучение любого языка начинается со знакомства с алфавитом и правилами чтения. Познакомиться с русским алфавитом, произношением и написанием букв поможет интерактивная таблица от проекта Russian For Everyone. В таблице к каждой букве добавлен пример со словом с выделенной ударной гласной, а также картинка, позволяющая лучше запомнить слово.
📖 Лексика и чтение
Большое значение в изучении языка имеет расширение словарного запаса, регулярное повторение выученных слов и навык чтения. Для развития этих навыков и предназначена онлайн-платформа Readlang, а сайт RussianGram облегчит понимание и чтение текста, расставив в нем все ударения.
📝 Письмо
Сайт Tobemum предлагает онлайн-генератор, где учителя и родители могут создавать прописи, адаптированные под потребности и уровень подготовки учащегося. Ученикам постарше для проверки орфографии, пунктуации, грамматики и стилистики текстов поможет онлайн-сервис Орфограммка. Программа не только выделяет ошибки, но и дает пояснения к каждой.
🎧 Аудирование
Еще один важный навык — умение воспринимать речь на слух. Сформировать его помогут подкасты от проекта Very Much Russian, слушая которые, можно одновременно учить разные слова, поговорки, шутки и песни.
☑️ Создание заданий и тестов
Одна из самых полезных программ для создания заданий и тестов — Hot Potatoes, позволяющая создавать задания в виде кроссвордов, с заполнением пропусков, тесты на установление соответствий или с выбором альтернативных и коротких ответов и упражнения с перепутанными предложениями. А создать анимированные уроки можно с помощью Animaker — это онлайн-платформа для создания видео с простым интерфейсом и возможностью конструировать своих персонажей.
Ещё больше цифровых инструментов для развития и тренировки разных языковых компетенций, а также для того, чтобы сделать уроки разнообразнее и увлекательнее, найдете в полной версии подборки.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как учить иностранцев русскому: цифровые технологии для РКИ
Как учить иностранцев русскому языку? Как перестать путать звуки [ы] и [и], если русский для вас не родной? Как технологии помогают понять Толстого и Достоевского в оригинале? В статье собрали основные цифровые инструменты для изучения русского языка как…
Вас слили: как личные данные утекают через онлайн-сервисы и умные устройства
Скандалы с утечкой личных данных регулярно появляются в новостях, причем в их центре могут оказаться самые разные сайты и сервисы: от онлайн-переводчиков до умных колонок. Разбираемся, как это происходит и вспоминаем несколько показательных случаев.
🚰 Почему происходят утечки?
У утечек данных может быть несколько причин. Например, технические уязвимости: кибератаки случаются, а системы защиты не всегда срабатывают моментально. А иногда пользователи сами фактически соглашаются на потенциальную утечку, автоматически принимая условия сервиса, который оставляет за собой право сохранять и использовать загруженный контент. Ну и о недобросовестных сотрудниках, конечно, не стоит забывать.
📓 Утечки из переводчиков
В 2017 году стало известно об утечках сразу из двух крупных онлайн-переводчиков. Первым был Translate.com — платформа для перевода текстов на более чем 90 языков. Специалисты из норвежской исследовательской организации Tekna обнаружили, что тексты, переведенные с помощью Translate.com, можно найти простым поиском в Google. Многие из этих документов не были предназначены для широкой публики.
Правда, и сам Google оказался не лучше. Журналистка Свеа Эккерт и дата-сайентист Андреас Дьюс ради эксперимента создали поддельный ИИ-стартап и получили бесплатную базу данных якобы для машинного обучения. И благодаря URL-адресам Google Translate, которые хранятся в полном тексте любого запроса, они узнали о тайной операции полиции. Следователь, который работал по делу о киберпреступности, переводил через Google Translate запросы о содействии, направленные в адрес иностранных коллег.
📻 Утечки из умных колонок
В 2019 году британская газета The Guardian сообщила, что подрядчики Apple «регулярно прослушивают записи с конфиденциальной информацией» через голосового помощника Siri. Похожая история произошла и с «Алисой» ещё раньше: в 2017 году на сервисе «Яндекс.Толока» появились задания по транскрибированию коротких аудиофайлов, из содержания которых стало ясно, что это записи голосовых запросов пользователей «Яндекса».
Другие подобные утечки происходили в разное время с сайтами для редактирования текста и проверки на плагиат. О них, а также о том, можно ли защитить свои личные данные, пользуясь подобными сервисами, узнаете из полной версии статьи на сайте (спойлер: увы, общий принцип таков: если вы пользуетесь бесплатным онлайн-сервисом, вы можете быть почти уверены, что ваш текст будет использоваться для «улучшения предоставляемых услуг». )
Время чтения: 13 минут
🤖 «Системный Блокъ» @sysblok
Скандалы с утечкой личных данных регулярно появляются в новостях, причем в их центре могут оказаться самые разные сайты и сервисы: от онлайн-переводчиков до умных колонок. Разбираемся, как это происходит и вспоминаем несколько показательных случаев.
🚰 Почему происходят утечки?
У утечек данных может быть несколько причин. Например, технические уязвимости: кибератаки случаются, а системы защиты не всегда срабатывают моментально. А иногда пользователи сами фактически соглашаются на потенциальную утечку, автоматически принимая условия сервиса, который оставляет за собой право сохранять и использовать загруженный контент. Ну и о недобросовестных сотрудниках, конечно, не стоит забывать.
📓 Утечки из переводчиков
В 2017 году стало известно об утечках сразу из двух крупных онлайн-переводчиков. Первым был Translate.com — платформа для перевода текстов на более чем 90 языков. Специалисты из норвежской исследовательской организации Tekna обнаружили, что тексты, переведенные с помощью Translate.com, можно найти простым поиском в Google. Многие из этих документов не были предназначены для широкой публики.
Правда, и сам Google оказался не лучше. Журналистка Свеа Эккерт и дата-сайентист Андреас Дьюс ради эксперимента создали поддельный ИИ-стартап и получили бесплатную базу данных якобы для машинного обучения. И благодаря URL-адресам Google Translate, которые хранятся в полном тексте любого запроса, они узнали о тайной операции полиции. Следователь, который работал по делу о киберпреступности, переводил через Google Translate запросы о содействии, направленные в адрес иностранных коллег.
📻 Утечки из умных колонок
В 2019 году британская газета The Guardian сообщила, что подрядчики Apple «регулярно прослушивают записи с конфиденциальной информацией» через голосового помощника Siri. Похожая история произошла и с «Алисой» ещё раньше: в 2017 году на сервисе «Яндекс.Толока» появились задания по транскрибированию коротких аудиофайлов, из содержания которых стало ясно, что это записи голосовых запросов пользователей «Яндекса».
Другие подобные утечки происходили в разное время с сайтами для редактирования текста и проверки на плагиат. О них, а также о том, можно ли защитить свои личные данные, пользуясь подобными сервисами, узнаете из полной версии статьи на сайте (спойлер:
Время чтения: 13 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Безопасность под угрозой: чем опасны онлайн-сервисы и умные устройства
Каким образом онлайн-сервисы и умные колонки становятся источником слива данных? Почему переведенные тексты и проверенные на плагиат документы могут оказаться в открытом доступе? И как минимизировать риски при работе с цифровыми инструментами? Ответы на эти…
Европейцы чуть не вымерли в последний ледниковый максимум
Что? Да! Об этом рассказали их… зубы. А теперь мы рассказываем вам.
Кратко: как так вышло?
Последний ледниковый период закончился ~11,7 тыс. лет назад, и начался голоценовый период. Предполагалось, что генетический состав европейских охотников-собирателей к тому моменту был относительно однородным на протяжении нескольких тысячелетий в Западной и Восточной Европе.
Оказалось, что разрыв был только в западной популяции, а альтернативные предковые линии не получили подтверждения после анализа данных. Западная популяция практически растворилась в восточной, и только некоторые ее представители смогли добраться до «убежищ» в южный землях. Можно сказать, что этот разрыв говорит о том, что западные популяции практически вымерли около 27 тыс. лет назад.
Установить это удалось благодаря разнообразию зубных рядов. Дело в том, что в восточной популяции оно сильно снизилось, а западные вариации практически исчезли. Но почему исследовали именно зубы?
Во-первых, данные о зубных признаках гораздо более многочисленны, чем любые другие типы палеобиологических данных. Во-вторых, эти признаки умеренно наследуются и по материнской, и по отцовской линии и не сильно привязаны к полу ребенка, что делает их удобными для анализа. Наконец, зубы — самая твердая ткань в организме, они имеют больше шансов сохраниться, даже если памятник поврежден и извлечь ДНК невозможно.
Правда, на некоторые загадки в истории европейской популяции этот метод ответов не дает. Подробнее о них и о том, как с этим связано изучение граветтской культуры и украшений в погребальном инвентаре, узнаете из полной версии статьи.
Время чтения: 10,5 минут
🤖 «Системный Блокъ» @sysblok
Что? Да! Об этом рассказали их… зубы. А теперь мы рассказываем вам.
Кратко: как так вышло?
Последний ледниковый период закончился ~11,7 тыс. лет назад, и начался голоценовый период. Предполагалось, что генетический состав европейских охотников-собирателей к тому моменту был относительно однородным на протяжении нескольких тысячелетий в Западной и Восточной Европе.
Оказалось, что разрыв был только в западной популяции, а альтернативные предковые линии не получили подтверждения после анализа данных. Западная популяция практически растворилась в восточной, и только некоторые ее представители смогли добраться до «убежищ» в южный землях. Можно сказать, что этот разрыв говорит о том, что западные популяции практически вымерли около 27 тыс. лет назад.
Установить это удалось благодаря разнообразию зубных рядов. Дело в том, что в восточной популяции оно сильно снизилось, а западные вариации практически исчезли. Но почему исследовали именно зубы?
Во-первых, данные о зубных признаках гораздо более многочисленны, чем любые другие типы палеобиологических данных. Во-вторых, эти признаки умеренно наследуются и по материнской, и по отцовской линии и не сильно привязаны к полу ребенка, что делает их удобными для анализа. Наконец, зубы — самая твердая ткань в организме, они имеют больше шансов сохраниться, даже если памятник поврежден и извлечь ДНК невозможно.
Правда, на некоторые загадки в истории европейской популяции этот метод ответов не дает. Подробнее о них и о том, как с этим связано изучение граветтской культуры и украшений в погребальном инвентаре, узнаете из полной версии статьи.
Время чтения: 10,5 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Зубы первых людей рассказали о миграциях и выживании в условиях ледникового максимума
Что палеогенетика рассказала о расселении и ранних миграциях первых сапиенсов? Как находки эпохи верхнего палеолита могут помочь в построении демографических моделей?
Что такое список Сводеша?
С каких слов начать сравнение языков? Почему «компьютер» не подойдет, но подойдет «мясо» (а «шашлык» — уже нет)? Рассказываем о списке Сводеша — инструменте, созданном американским лингвистом Моррисом Сводешем для сравнения языков.
Кратко: что это такое?
Список Сводеша — список самых распространенных, базовых лексем, который используется для оценки родства языков, как правило, внутри одной языковой семьи.
В него входят понятия, которые претендуют на культурную универсальность и наименее склонны к изменению в конкретном языке.
В первом варианте списка Сводеша, опубликованном в 1952 году, было 215 значений. В 1971 году был опубликован финальный список, состоящий из 100 значений.
При этом выбор слов для списка – процесс долгий и не всегда очевидный. Например, из слов, обозначающих названия животных, в финальный список попали «собака», «птица», «рыба» и «вошь». А вот понятия «муж» и «жена» пришлось убрать, поскольку они встречались только в 57% и 51% рассмотренных языков. Сложной оказалась и ситуация со словами, обозначающими родителей: в их основе часто лежит детский лепет (ма-ма, па-па), и во многих языках мира они будут похожи, даже если родство между языками отдаленное.
Отдельный вариант списка Сводеша есть и для жестовых языков. Примечательно, что в нем нет, например, значений для частей тела («рука», «голова») или некоторых местоимений («я», «это»). Дело в том, что в разных жестовых языках эти жесты часто похожи не из-за родства языков, а из-за логики жестовой речи, где значение «я» часто передается указыванием на себя, а значение «голова» — касанием головы.
Подробнее о списке Сводеша, его трансформациях и вариациях узнаете из полной версии текста в нашем глоссарии.
🤖 «Системный Блокъ» @sysblok
С каких слов начать сравнение языков? Почему «компьютер» не подойдет, но подойдет «мясо» (а «шашлык» — уже нет)? Рассказываем о списке Сводеша — инструменте, созданном американским лингвистом Моррисом Сводешем для сравнения языков.
Кратко: что это такое?
Список Сводеша — список самых распространенных, базовых лексем, который используется для оценки родства языков, как правило, внутри одной языковой семьи.
В него входят понятия, которые претендуют на культурную универсальность и наименее склонны к изменению в конкретном языке.
В первом варианте списка Сводеша, опубликованном в 1952 году, было 215 значений. В 1971 году был опубликован финальный список, состоящий из 100 значений.
При этом выбор слов для списка – процесс долгий и не всегда очевидный. Например, из слов, обозначающих названия животных, в финальный список попали «собака», «птица», «рыба» и «вошь». А вот понятия «муж» и «жена» пришлось убрать, поскольку они встречались только в 57% и 51% рассмотренных языков. Сложной оказалась и ситуация со словами, обозначающими родителей: в их основе часто лежит детский лепет (ма-ма, па-па), и во многих языках мира они будут похожи, даже если родство между языками отдаленное.
Отдельный вариант списка Сводеша есть и для жестовых языков. Примечательно, что в нем нет, например, значений для частей тела («рука», «голова») или некоторых местоимений («я», «это»). Дело в том, что в разных жестовых языках эти жесты часто похожи не из-за родства языков, а из-за логики жестовой речи, где значение «я» часто передается указыванием на себя, а значение «голова» — касанием головы.
Подробнее о списке Сводеша, его трансформациях и вариациях узнаете из полной версии текста в нашем глоссарии.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Что такое список Сводеша? - Системный Блокъ
Для того, чтобы определить степень родства двух языков, часто сравнивают их лексический состав. Рассказываем о списке Сводеша — инструменте, созданном американским лингвистом Моррисом Сводешем для сравнения языков.
Неравенство, женщины в DH и гендерная социолингвистика
Продолжаем праздновать Международный женский день! Собрали для вас подборку полезных и познавательных публикаций, в которых мы напоминаем о сферах, где все еще сохраняется неравенство, изучаем, чем занимаются DH-исследовательницы, и ищем различия между мужской и женской речью.
👩💻 Женщина и программист: исследуем гендерное неравенство в IT-сфере
Несмотря на быстрый рост рынка и востребованность специалистов, проблема гендерного неравенства очень заметна в сфере IT. Мы изучили, какова доля женщин среди профессионалов в области информационных технологий, сколько девушек готовы обучаться компьютерным наукам в России и какие стереотипы ограничивают их на рынке труда.
👨🏻🏫 Учителя-мужчины в школе: сколько их и что они преподают
Мы проанализировали открытые данные Минпросвещения и выяснили соотношение мужчин и женщин среди учителей. Насколько силен гендерный дисбаланс в профессии, насколько ситуация различается между российскими регионами и зависит ли доля мужчин и женщин от преподаваемого предмета (спойлер:ОБЖ — самый мужской предмет, Русский язык и литература — самые женские ), читайте в нашей дата-истории.
👩🏻🔬 «Игнорируется и не ценится»: вклад женщин в науку через цифры
Если в сфере школьного образования женщин больше, чем мужчин, то в науке дело обстоит по-другому. Здесь женщины иногда оказываются невидимыми. Почитайте нашу статью о работе ученых из Северо-восточного университета в Бостоне и вы узнаете, с какими проблемами сталкиваются исследовательницы, когда речь идет просто об указании авторства.
👩🏼🎓 От первого лица: исследовательницы о своей работе
Если проблемы гендерного неравенства вас расстраивают, почитайте наши интервью с исследовательницами гуманитарных наук. Мы говорили об искусственном интеллекте — с Татьяной Шавриной, руководительницей исследовательской команды в проекте LLAMA, о нейролингвистике — с Ольгой Драгой, директоркой Центра языка и мозга НИУ ВШЭ, о цифровизации аудиоархивов — со Светланой Подрезовой, заведующей Фонограммархивом Пушкинского Дома.
🕵🏽♀️ Тест: Знаете ли вы различия между мужской и женской речью
И в завершение — пройдите наш тест, основанный на результатах исследований в области гендерной социолингвистики. Из него вы узнаете, кто — мужчины или женщины — чаще использует абстрактную лексику или слова-паразиты и больше следит за правильностью речи.
🤖 «Системный Блокъ» @sysblok
Продолжаем праздновать Международный женский день! Собрали для вас подборку полезных и познавательных публикаций, в которых мы напоминаем о сферах, где все еще сохраняется неравенство, изучаем, чем занимаются DH-исследовательницы, и ищем различия между мужской и женской речью.
👩💻 Женщина и программист: исследуем гендерное неравенство в IT-сфере
Несмотря на быстрый рост рынка и востребованность специалистов, проблема гендерного неравенства очень заметна в сфере IT. Мы изучили, какова доля женщин среди профессионалов в области информационных технологий, сколько девушек готовы обучаться компьютерным наукам в России и какие стереотипы ограничивают их на рынке труда.
👨🏻🏫 Учителя-мужчины в школе: сколько их и что они преподают
Мы проанализировали открытые данные Минпросвещения и выяснили соотношение мужчин и женщин среди учителей. Насколько силен гендерный дисбаланс в профессии, насколько ситуация различается между российскими регионами и зависит ли доля мужчин и женщин от преподаваемого предмета (спойлер:
👩🏻🔬 «Игнорируется и не ценится»: вклад женщин в науку через цифры
Если в сфере школьного образования женщин больше, чем мужчин, то в науке дело обстоит по-другому. Здесь женщины иногда оказываются невидимыми. Почитайте нашу статью о работе ученых из Северо-восточного университета в Бостоне и вы узнаете, с какими проблемами сталкиваются исследовательницы, когда речь идет просто об указании авторства.
👩🏼🎓 От первого лица: исследовательницы о своей работе
Если проблемы гендерного неравенства вас расстраивают, почитайте наши интервью с исследовательницами гуманитарных наук. Мы говорили об искусственном интеллекте — с Татьяной Шавриной, руководительницей исследовательской команды в проекте LLAMA, о нейролингвистике — с Ольгой Драгой, директоркой Центра языка и мозга НИУ ВШЭ, о цифровизации аудиоархивов — со Светланой Подрезовой, заведующей Фонограммархивом Пушкинского Дома.
🕵🏽♀️ Тест: Знаете ли вы различия между мужской и женской речью
И в завершение — пройдите наш тест, основанный на результатах исследований в области гендерной социолингвистики. Из него вы узнаете, кто — мужчины или женщины — чаще использует абстрактную лексику или слова-паразиты и больше следит за правильностью речи.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Женщины в IT: существует ли гендерное неравенство?
«Системный Блокъ» изучил, насколько сильно гендерное неравенство в IT-сфере, и обнаружил, что, несмотря на положительные изменения, в этой области по-прежнему сильны стереотипы по отношению к женщинам.
Огромная GPT, новая модель от Anthropic и OCR от Mistral
Рассказываем, что произошло в мире ИИ за последнее время.
Новая GPT — большая, человечная и дорогая
Компания OpenAI представила новую версию своей языковой модели — GPT-4.5, обновление ранее выпущенной GPT-4o. В отличие от моделей линейки «o», ориентированных на решение сложных задач в области точных наук, в GPT-4.5 сделали упор на естественность ответов и на эмоциональный интеллект — это подтверждается первыми реакциями пользователей. Также модель меньше подвержена галлюцинациям.
По словам компании, версия 4.5 — их самая большая модель на данный момент. Правда, ее размер сказался на скорости генерации ответа — она существенно медленнее GPT-4o. Кроме того, использование GPT-4.5 обходится в десятки раз дороже аналогичных моделей: стоимость обработки миллиона входных токенов составляет $75, а миллиона выходных — $150, что в 30 и 15 раз превышает стоимость GPT-4o соответственно.
Обновление Claude Sonnet
Компания Anthropic, один из главных конкурентов OpenAI, выпустила обновление своей языковой модели — Claude Sonnet 3.7.
Главным нововведением стала поддержка режима рассуждений, при котором модель генерирует длинные цепочки логических выводов, существенно повышающие качество финального ответа. В отличие от конкурентов, Anthropic не стала разрабатывать две отдельные модели — одну для быстрых ответов, другую для ответов с предварительными рассуждениями, а объединила оба режима в одной модели.
В обоих режимах Claude Sonnet 3.7 либо превосходит конкурирующие модели, либо демонстрирует сопоставимые результаты. Особенно заметное преимущество наблюдается в задачах, связанных с программированием.
Цены у Sonnet 3.7 такие же, как и прошлой версии: $3 за миллион входных токенов и $15 за миллион выходных.
Anthropic была основана выходцами из OpenAI. В качестве приоритета компания считает разработку безопасного и интерпретируемого ИИ. По заявлениям гендиректора Anthropic, появление общего искусственного интеллекта можно ожидать уже к 2027 году.
Сервис для OCR от Mistral
Французская компания Mistral представила сервис для распознавания текста на фотографиях и сканах (OCR). Модель способна распознавать не только текстовую информацию, но и таблицы, изображения, графики и формулы.
По качеству распознавания сервис Mistral превосходит аналогичные решения от Google, Microsoft и OpenAI. Особое внимание разработчики уделили мультиязычности: модель нативно поддерживает письменности на основе латиницы, кириллицы и многие азиатские системы письма.
Сервис также позволяет использовать цифровой документ в качестве промта — пользователи могут задавать модели вопросы по содержанию или извлекать из документа необходимую информацию в структурированном виде (например, в формате JSON).
Доступ к сервису предоставляется через API по цене $1 за 1000 страниц. Для клиентов, которым важна конфиденциальность данных, есть возможность развернуть модель на собственных серверах.
🤖 «Системный Блокъ» @sysblok
Рассказываем, что произошло в мире ИИ за последнее время.
Новая GPT — большая, человечная и дорогая
Компания OpenAI представила новую версию своей языковой модели — GPT-4.5, обновление ранее выпущенной GPT-4o. В отличие от моделей линейки «o», ориентированных на решение сложных задач в области точных наук, в GPT-4.5 сделали упор на естественность ответов и на эмоциональный интеллект — это подтверждается первыми реакциями пользователей. Также модель меньше подвержена галлюцинациям.
По словам компании, версия 4.5 — их самая большая модель на данный момент. Правда, ее размер сказался на скорости генерации ответа — она существенно медленнее GPT-4o. Кроме того, использование GPT-4.5 обходится в десятки раз дороже аналогичных моделей: стоимость обработки миллиона входных токенов составляет $75, а миллиона выходных — $150, что в 30 и 15 раз превышает стоимость GPT-4o соответственно.
Обновление Claude Sonnet
Компания Anthropic, один из главных конкурентов OpenAI, выпустила обновление своей языковой модели — Claude Sonnet 3.7.
Главным нововведением стала поддержка режима рассуждений, при котором модель генерирует длинные цепочки логических выводов, существенно повышающие качество финального ответа. В отличие от конкурентов, Anthropic не стала разрабатывать две отдельные модели — одну для быстрых ответов, другую для ответов с предварительными рассуждениями, а объединила оба режима в одной модели.
В обоих режимах Claude Sonnet 3.7 либо превосходит конкурирующие модели, либо демонстрирует сопоставимые результаты. Особенно заметное преимущество наблюдается в задачах, связанных с программированием.
Цены у Sonnet 3.7 такие же, как и прошлой версии: $3 за миллион входных токенов и $15 за миллион выходных.
Anthropic была основана выходцами из OpenAI. В качестве приоритета компания считает разработку безопасного и интерпретируемого ИИ. По заявлениям гендиректора Anthropic, появление общего искусственного интеллекта можно ожидать уже к 2027 году.
Сервис для OCR от Mistral
Французская компания Mistral представила сервис для распознавания текста на фотографиях и сканах (OCR). Модель способна распознавать не только текстовую информацию, но и таблицы, изображения, графики и формулы.
По качеству распознавания сервис Mistral превосходит аналогичные решения от Google, Microsoft и OpenAI. Особое внимание разработчики уделили мультиязычности: модель нативно поддерживает письменности на основе латиницы, кириллицы и многие азиатские системы письма.
Сервис также позволяет использовать цифровой документ в качестве промта — пользователи могут задавать модели вопросы по содержанию или извлекать из документа необходимую информацию в структурированном виде (например, в формате JSON).
Доступ к сервису предоставляется через API по цене $1 за 1000 страниц. Для клиентов, которым важна конфиденциальность данных, есть возможность развернуть модель на собственных серверах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Как 3D-моделирование спасает памятники древнерусской письменности: «Corpus Inscriptionum Rossicarum»
Могут ли новые технологии помочь прочесть нечитаемую древнюю надпись на камне? Как трехмерные модели старинных надгробий, крестов, камней и эпиграфических табличек позволяют не только сохранить эти памятники в цифровой форме, но и добыть новое знание о прошлом? Знакомимся с проектом «Свод русских надписей», проблемами работы эпиграфистов и методами их решения.
Благодарим за помощь в написании материала сотрудника проекта «Свод русских надписей» Анну Зиганшину
Кратко: о чем статья?
Изучением надписей на твердых материалах в России занимаются очень давно: истоки эпиграфики (науки о таких текстах) прослеживаются ещё в в XVI-XVII веках, когда появились первые подробные описания святынь, надгробий и памятников архитектуры. А в XIX веке появились первые эпиграфические своды, куда также вошли письменные источники об изучаемых надписях. Например, черновики текстов памятников и учетные монастырские записи.
Сегодня назревает необходимость в унифицированной публикации и републикации как известных, так и ранее неизвестных памятников, а также тех, которые сохранились в ранних сведениях, но ныне утрачены. Эту задачу призван решить проект «Свод русских надписей».
Участники проекта используют для составления свода современные цифровые технологии: трехмерное моделирование — на этапе документирования объектов — и ГИС и базы данных — на этапе систематизирования учетных данных о надписях. Эти методы значительно расширяют возможности исследователя при подготовке публикации. Но работа «Свода» не кончается на моделировании — необходимо также создать высококачественные рендеры и применить к моделям алгоритмы визуализации текста. Это позволяет прочитать даже те надписи, которые не слишком хорошо сохранились или дошли до современных ученых в поврежденном виде.
Сегодня в базе «Свода» можно найти 2075 документированных плит и фрагментов от 1905 памятников, 1597 моделей памятников, 1424 подготовленные к исследованию надписи и 864 описания надписей.
Подробнее о процессах работы «Свода» и технологических горизонтах проекта можно узнать из полной версии статьи. Там же найдёте примеры древних памятников, которые изучают с помощью условных цветовых схем, рассчитанных математическими алгоритмами, и других цифровых методов.
Время чтения: 16 минут
🤖 «Системный Блокъ» @sysblok
Могут ли новые технологии помочь прочесть нечитаемую древнюю надпись на камне? Как трехмерные модели старинных надгробий, крестов, камней и эпиграфических табличек позволяют не только сохранить эти памятники в цифровой форме, но и добыть новое знание о прошлом? Знакомимся с проектом «Свод русских надписей», проблемами работы эпиграфистов и методами их решения.
Благодарим за помощь в написании материала сотрудника проекта «Свод русских надписей» Анну Зиганшину
Кратко: о чем статья?
Изучением надписей на твердых материалах в России занимаются очень давно: истоки эпиграфики (науки о таких текстах) прослеживаются ещё в в XVI-XVII веках, когда появились первые подробные описания святынь, надгробий и памятников архитектуры. А в XIX веке появились первые эпиграфические своды, куда также вошли письменные источники об изучаемых надписях. Например, черновики текстов памятников и учетные монастырские записи.
Сегодня назревает необходимость в унифицированной публикации и републикации как известных, так и ранее неизвестных памятников, а также тех, которые сохранились в ранних сведениях, но ныне утрачены. Эту задачу призван решить проект «Свод русских надписей».
Участники проекта используют для составления свода современные цифровые технологии: трехмерное моделирование — на этапе документирования объектов — и ГИС и базы данных — на этапе систематизирования учетных данных о надписях. Эти методы значительно расширяют возможности исследователя при подготовке публикации. Но работа «Свода» не кончается на моделировании — необходимо также создать высококачественные рендеры и применить к моделям алгоритмы визуализации текста. Это позволяет прочитать даже те надписи, которые не слишком хорошо сохранились или дошли до современных ученых в поврежденном виде.
Сегодня в базе «Свода» можно найти 2075 документированных плит и фрагментов от 1905 памятников, 1597 моделей памятников, 1424 подготовленные к исследованию надписи и 864 описания надписей.
Подробнее о процессах работы «Свода» и технологических горизонтах проекта можно узнать из полной версии статьи. Там же найдёте примеры древних памятников, которые изучают с помощью условных цветовых схем, рассчитанных математическими алгоритмами, и других цифровых методов.
Время чтения: 16 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Искусство надписей: что изучает эпиграфика и как современные технологии меняют науку
Как была создана цифровая база эпиграфических памятников? Какие технологии и методы помогают исследователям сохранять и изучать древние надписи? И с какими вызовами сталкивается эпиграфика в XXI веке? Ответы на эти и другие вопросы ищите в материале «Системного…