Ресурсы для цифровых стиховедов: поэтические корпуса
#philology #survey
Поэтический корпус — это электронная коллекция стихотворных текстов. Корпус отличается от электронной библиотеки тем, что в нем есть разметка. В поэтических корпусах размечают формальные показатели стиха: метрику, рифму, строфику. Общеизвестных доступных корпусов с такой разметкой четыре: поэтический подкорпус Национального корпуса русского языка (НКРЯ), а также Башкирский, Чешский и Персидский поэтические корпуса.
На базе поэтических корпусов проводятся количественные стиховедческие исследования, например, исследование семантического ореола метра, акцентологические исследования (исследования ударения), ставятся эксперименты по автоматическому определению авторства и изучается творчество отдельных поэтов.
Поэтический подкорпус НКРЯ
Поэтический корпус в составе Национального корпуса русского языка — первый в истории поэтический корпус. На данный момент объем корпуса — 89 124 текстов, 12 407 747 слов. В корпусе представлен 951 автор.
Стиховедческая разметка поэтического подкорпуса НКРЯ включает метр, строфику, клаузулы и другие параметры. Помимо стиховедческой, в поэтическом подкорпусе есть морфологическая и метатекстовая разметка (автор, дата создания, жанр). По метру, строфике, клаузуле и другим признакам можно искать информацию и задавать подкорпус. Определения сложных слов можно искать в терминологическом указателе.
В подкорпусе доступны полные тексты всех произведений. Напрямую из корпуса их скачать нельзя, но мы уже рассказывали, как написать программу для скачивания текстов.
Башкирский поэтический корпус
Объём Башкирского поэтического корпуса составляет более 1,8 млн слов. Коллекция текстов состоит из произведений 103 башкирских поэтов XX и начала XXI века. Авторские права на использованные стихотворения остаются за поэтами.
Для грамматического разбора словоформ Б. В. Орехов и А. А. Галлямов разработали систему автоматического морфологического анализа Bashmorph. А для поиска словоформ по базе была адаптирована поисковая система Восточноармянского национального корпуса, созданная компанией Corpus Technologies.
Тексты в корпусе снабжены морфологической разметкой и стиховедческой разметкой, которая позволяет осуществлять поиск в строках, написанных определенным метром, в зоне рифмовки и т. д. Корпус поддерживает два вида поиска — лексический и грамматический, можно искать как само слово, так и формы по определенным грамматическим признакам. Также есть возможность задавать корпус отдельного автора.
Чешский поэтический корпус
На данный момент в корпусе чешского стиха собраны тексты чешских поэтов XIX — начала XX веков, и его объем более 14,6 млн слов. Каждой словоформе в корпусе присвоена начальная форма данного слова, фонетическая транскрипция и грамматические категории; для каждого стиха определены метр, число стоп, тип клаузулы и метрическая схема.
На основе корпуса создано приложение «Эвфонометр». Эвфония — это учение о благозвучии, раздел поэтики, изучающий в стихе качественную сторону речевых звуков, накладывающих известную эмоциональную окраску на художественное произведение. С помощью Эвфонометра можно вычислить степень благозвучия любого поэтического текста в корпусе.
Персидский поэтический корпус
Персидский поэтический корпус был опубликован весной 2020 года и строился по той же модели, что и все предыдущие. Он содержит тексты классической персидской поэзии IX–XVII веков в объеме 4,3 млн словоупотреблений. Это 16 842 произведения или 330 723 бейта — так называется минимальная строфическая единица тюркской и персидской поэзии. Тексты морфологически размечены, доступен поиск по словам в позиции редифа и рифмы, часть текстов размечена метрически.
Больше подробностей — в нашей статье: https://sysblok.ru/philology/resursy-dlja-cifrovyh-stihovedov-pojeticheskie-korpusa/
Ольга Лисицкая
#philology #survey
Поэтический корпус — это электронная коллекция стихотворных текстов. Корпус отличается от электронной библиотеки тем, что в нем есть разметка. В поэтических корпусах размечают формальные показатели стиха: метрику, рифму, строфику. Общеизвестных доступных корпусов с такой разметкой четыре: поэтический подкорпус Национального корпуса русского языка (НКРЯ), а также Башкирский, Чешский и Персидский поэтические корпуса.
На базе поэтических корпусов проводятся количественные стиховедческие исследования, например, исследование семантического ореола метра, акцентологические исследования (исследования ударения), ставятся эксперименты по автоматическому определению авторства и изучается творчество отдельных поэтов.
Поэтический подкорпус НКРЯ
Поэтический корпус в составе Национального корпуса русского языка — первый в истории поэтический корпус. На данный момент объем корпуса — 89 124 текстов, 12 407 747 слов. В корпусе представлен 951 автор.
Стиховедческая разметка поэтического подкорпуса НКРЯ включает метр, строфику, клаузулы и другие параметры. Помимо стиховедческой, в поэтическом подкорпусе есть морфологическая и метатекстовая разметка (автор, дата создания, жанр). По метру, строфике, клаузуле и другим признакам можно искать информацию и задавать подкорпус. Определения сложных слов можно искать в терминологическом указателе.
В подкорпусе доступны полные тексты всех произведений. Напрямую из корпуса их скачать нельзя, но мы уже рассказывали, как написать программу для скачивания текстов.
Башкирский поэтический корпус
Объём Башкирского поэтического корпуса составляет более 1,8 млн слов. Коллекция текстов состоит из произведений 103 башкирских поэтов XX и начала XXI века. Авторские права на использованные стихотворения остаются за поэтами.
Для грамматического разбора словоформ Б. В. Орехов и А. А. Галлямов разработали систему автоматического морфологического анализа Bashmorph. А для поиска словоформ по базе была адаптирована поисковая система Восточноармянского национального корпуса, созданная компанией Corpus Technologies.
Тексты в корпусе снабжены морфологической разметкой и стиховедческой разметкой, которая позволяет осуществлять поиск в строках, написанных определенным метром, в зоне рифмовки и т. д. Корпус поддерживает два вида поиска — лексический и грамматический, можно искать как само слово, так и формы по определенным грамматическим признакам. Также есть возможность задавать корпус отдельного автора.
Чешский поэтический корпус
На данный момент в корпусе чешского стиха собраны тексты чешских поэтов XIX — начала XX веков, и его объем более 14,6 млн слов. Каждой словоформе в корпусе присвоена начальная форма данного слова, фонетическая транскрипция и грамматические категории; для каждого стиха определены метр, число стоп, тип клаузулы и метрическая схема.
На основе корпуса создано приложение «Эвфонометр». Эвфония — это учение о благозвучии, раздел поэтики, изучающий в стихе качественную сторону речевых звуков, накладывающих известную эмоциональную окраску на художественное произведение. С помощью Эвфонометра можно вычислить степень благозвучия любого поэтического текста в корпусе.
Персидский поэтический корпус
Персидский поэтический корпус был опубликован весной 2020 года и строился по той же модели, что и все предыдущие. Он содержит тексты классической персидской поэзии IX–XVII веков в объеме 4,3 млн словоупотреблений. Это 16 842 произведения или 330 723 бейта — так называется минимальная строфическая единица тюркской и персидской поэзии. Тексты морфологически размечены, доступен поиск по словам в позиции редифа и рифмы, часть текстов размечена метрически.
Больше подробностей — в нашей статье: https://sysblok.ru/philology/resursy-dlja-cifrovyh-stihovedov-pojeticheskie-korpusa/
Ольга Лисицкая
Как работают нейросети: подборка постов с пошаговыми разборами
#survey
Разбираем сложные технологии глубокого обучения, чтобы они становились понятны каждому.
Как работает нейросеть
Рассказываем, как нейросеть учится на своих ошибках и как она в случае неудачи платит по счетам. Если ранее вы пытались изучить вопрос самостоятельно, скорее всего, натыкались на сложные статьи с кучей терминов и оборотов. Мы объясняем базовые принципы работы нейросети простым языком.
https://sysblok.ru/knowhow/kak-rabotaet-neuroset/
Как работает градиентный спуск
Самое главное в обучении нейросетей — процесс уменьшения ошибки. Он в современных нейросетях основан на градиентном спуске. Градиентный спуск — это способ поиска точек минимума или максимума в сложных функциях. В конечном счете все упирается в производные — но посложнее, чем в школе.
https://sysblok.ru/knowhow/razbiraem-nejroseti-po-chastjam-kak-rabotaet-gradientnyj-spusk/
Как работает свертка в нейросетях
Мы привыкли, что в ВК, в Фейсбуке или Инстаграме можно за пару секунд наложить фильтр на изображение: размыть его, подправить цвет, яркость, контрастность, добавить какие-то пятна. В основе этих фильтров лежат те же принципы, что и в основе сверточных нейросетей — главного алгоритма для задач распознавания картинок, символов и прочего «компьютерного зрения». Рассказываем, как работает свертка.
https://sysblok.ru/knowhow/kak-rabotajut-filtry-v-instagrame/
Как посмотреть на мир глазами нейросетей
Еще один материал про компьютерное зрение. Здесь мы рассказываем, как свертки из картинок проходят через нейросеть — и алгоритм находит в них уши котиков, контуры машин и очертания лиц.
https://sysblok.ru/knowhow/kak-posmotret-na-mir-glazami-nejrosetej/
Как устроены рекуррентные нейросети с долгой краткосрочной памятью
Этот текст — про то, что такое языковая модель и зачем она нужна. Еще рассказываем, почему рекуррентная нейросеть (RNN), хорошо подходит под машинную обработку языка и как работает LSTM — усложненная модель RNN, которая умеет запоминать не все подряд, а только важное.
https://sysblok.ru/knowhow/mama-myla-lstm-kak-ustroeny-rekurrentnye-nejroseti-s-dolgoj-kratkosrochnoj-pamjatju/
Как работает «внимание» в нейросетях
Рассказываем о механизме «внимания» (attention), на котором работают в 2020 году все действительно крутые нейросети. Почему внимание стало killer-фичей диплернинга, что под капотом у attention mechanism, как нейросеть понимает, какие признаки текста или картинки важнее других.
https://sysblok.ru/knowhow/vnimanie-vse-chto-vam-nuzhno-kak-rabotaet-attention-v-nejrosetjah/
Как работают нейросети-трансформеры
Все лучшие современные нейросети — это сочетание механизма внимания и трансформерной архитектуры. Трансформеры — это нашумевшие GPT-2, GPT-3, а также BERT — главная рабочая лошадка компьютерной лингвистики. И еще тысячи менее известных нейростевых архитектур. Осенью 2020 года Яндекс вкрутил свой трансформер YATI в. поиск. Рассказываем, как устроены трансформеры и чем они лучше предыдущих архитектур.
https://sysblok.ru/knowhow/kak-rabotajut-transformery-krutejshie-nejroseti-nashih-dnej/
#survey
Разбираем сложные технологии глубокого обучения, чтобы они становились понятны каждому.
Как работает нейросеть
Рассказываем, как нейросеть учится на своих ошибках и как она в случае неудачи платит по счетам. Если ранее вы пытались изучить вопрос самостоятельно, скорее всего, натыкались на сложные статьи с кучей терминов и оборотов. Мы объясняем базовые принципы работы нейросети простым языком.
https://sysblok.ru/knowhow/kak-rabotaet-neuroset/
Как работает градиентный спуск
Самое главное в обучении нейросетей — процесс уменьшения ошибки. Он в современных нейросетях основан на градиентном спуске. Градиентный спуск — это способ поиска точек минимума или максимума в сложных функциях. В конечном счете все упирается в производные — но посложнее, чем в школе.
https://sysblok.ru/knowhow/razbiraem-nejroseti-po-chastjam-kak-rabotaet-gradientnyj-spusk/
Как работает свертка в нейросетях
Мы привыкли, что в ВК, в Фейсбуке или Инстаграме можно за пару секунд наложить фильтр на изображение: размыть его, подправить цвет, яркость, контрастность, добавить какие-то пятна. В основе этих фильтров лежат те же принципы, что и в основе сверточных нейросетей — главного алгоритма для задач распознавания картинок, символов и прочего «компьютерного зрения». Рассказываем, как работает свертка.
https://sysblok.ru/knowhow/kak-rabotajut-filtry-v-instagrame/
Как посмотреть на мир глазами нейросетей
Еще один материал про компьютерное зрение. Здесь мы рассказываем, как свертки из картинок проходят через нейросеть — и алгоритм находит в них уши котиков, контуры машин и очертания лиц.
https://sysblok.ru/knowhow/kak-posmotret-na-mir-glazami-nejrosetej/
Как устроены рекуррентные нейросети с долгой краткосрочной памятью
Этот текст — про то, что такое языковая модель и зачем она нужна. Еще рассказываем, почему рекуррентная нейросеть (RNN), хорошо подходит под машинную обработку языка и как работает LSTM — усложненная модель RNN, которая умеет запоминать не все подряд, а только важное.
https://sysblok.ru/knowhow/mama-myla-lstm-kak-ustroeny-rekurrentnye-nejroseti-s-dolgoj-kratkosrochnoj-pamjatju/
Как работает «внимание» в нейросетях
Рассказываем о механизме «внимания» (attention), на котором работают в 2020 году все действительно крутые нейросети. Почему внимание стало killer-фичей диплернинга, что под капотом у attention mechanism, как нейросеть понимает, какие признаки текста или картинки важнее других.
https://sysblok.ru/knowhow/vnimanie-vse-chto-vam-nuzhno-kak-rabotaet-attention-v-nejrosetjah/
Как работают нейросети-трансформеры
Все лучшие современные нейросети — это сочетание механизма внимания и трансформерной архитектуры. Трансформеры — это нашумевшие GPT-2, GPT-3, а также BERT — главная рабочая лошадка компьютерной лингвистики. И еще тысячи менее известных нейростевых архитектур. Осенью 2020 года Яндекс вкрутил свой трансформер YATI в. поиск. Рассказываем, как устроены трансформеры и чем они лучше предыдущих архитектур.
https://sysblok.ru/knowhow/kak-rabotajut-transformery-krutejshie-nejroseti-nashih-dnej/