Х_Т ©
2.06K subscribers
38 photos
1 video
39 links
Личный уютный бложек, входить на свой страх и риск. Упарываемся по Ядерной химии и Ловленду, читаем Веббера вслух и моем руки. Обсуждаем нейросетки и статистику с математикой. Пифагору слава!
加入频道
Статистика языка

Сегодня предлагаю выпить за граммы! Нет, не те, а за биграммы и триграммы! Что это такое? На самом деле мы уже разбирались в этом вопросе, но не использовали этот термин. Сейчас мы исправим это досадное упущение и рассмотрим данный метод анализа еще раз.

Один из часто используемых инструментов – подсчет частоты слов. Он нужен для того, чтобы понять, какие слова наиболее популярны в языке и как они связаны друг с другом. Например, если мы возьмем простенькую фразу: «А я вот сегодня на сейчас пошел в магазин и купил яблоки», то сможем посчитать, сколько раз встречается каждое слово, и узнать, что понятие «я» в коротком отрывке встречается два раза («я пошел» и «я купил»), а слово «сейчас» – один раз.

Также статистика, применительно к языку, позволяет анализировать биграммы и триграммы. Почти как в детективе, где нужно вычислить, кто с кем и когда общался: биграмма - это два слова, которые идут друг за другом, а триграмма - соответственно, три слова подряд. Анализ биграмм и триграмм позволяет нам понять, какие слова часто используются вместе.

Оба анализа, вернее, результаты таких исследований, позволяют предсказывать следующее слово в предложении. Например, если мы возьмем текст «Сегодня я пошел в магазин и купил…», то на основе того, какие слова часто используются вместе, можно предположить следующее слово. К примеру, «яблоки», как в тексте выше: размышляя над тем, что именно можно купить в магазине, мы будем перебирать явно не глаголы, а «яблоки» статистически являются примером часто употребляемых слов.

Так статистика помогает лучше понимать алгоритмы и правила языка и использовать его более эффективно. Инструменты статистики могут быть полезны для автоматического перевода, создания языковых моделей и машинного обучения.

#математика #статистика #лингвистика
Частотные диаграммы

Вот так выглядит частотная диаграмма для блогера. Какого? Пока секрет! Давайте попробуем отгадать в комментариях, а я пока немного поясню как эта картинка получается.

Для начала мы нормализуем все слова, то есть приводим их в именительный падеж единственного числа для всяких существительных, и в неопределенную форму несовершенного вида глаголы. Это нужно, чтобы считать смыслы, а не формы: одел или оделся, не так уж важно, но по этому слову мы поймем, что блог скорее всего про моду, например.

Вторым заходом мы чистим с помощью стоп-листа от незначащих слов. В первую очередь это союзы, предлоги и прочие бессмысленные слова, которые связывают другие слова. Например, одно из самых частотных слов - союз и. Примерно та же ситуация и с предлогами, которые обходят по популярности многие слова со смыслом.

И вот когда мы все почистили - можем выводить на экран диаграмму. Слева видим количество слов в тексте, то есть частоту, а снизу сами слова. Высота каждого ряда показывает точное значение этих слов. И вот теперь на экране 20 самых популярных! Если кого-то заинтересует код, который такую простенькую манипуляцию над данными проводит, то не стесняйтесь и пишите в ЛС или в комментарии. Кстати, сейчас вы уже можете называть себя лингвистами!

Какой следующий шаг? Такой же анализ биграмм и триграмм! Кидайте варианты блогеров на проверку, постараемся всем помочь!

#математика #статистика #лингвистика
В или НА

Как все помнят, у нас познавательный телеграм канал. И настало время сегодня раз и навсегда решить вопрос, какой из предлогов использовать правильно: В или НА.

Но если кто-то подумал, что это пост про Украину, то стоит охладиться. Это гораздо важнее какой-то Украины, к тому же через пять лет такого государства может больше и не быть. Тогда в чём вопрос?

Пост В нашем телеграм-канале
Пост НА нашем телеграм-канале

Как правильно? Призываем лингвистов в комментарии, а все остальные голосуем:

🍞 - Пост В телеграм-канале
🥑 - Пост НА телеграм-канале

Не проходи мимо! Важен каждый голос!

#Россия #лингвистика #РусскийЯзык
Please open Telegram to view this post
VIEW IN TELEGRAM