Сегодня, дружочки-пирожочки, я покажу вам как надо аргументированно спорить, когда тебя пытаются задавить авторитетом.
Спойлер:надо не бояться открывать ссылки и просто читать то, что написано, даже на ангельском, ибо есть ведро гуглопереводчиков в интернетах. Например, мне от яндекса гуглопереводчик особо люб.
https://telegra.ph/Kak-ya-u-Transparency-International-avtokorrelyaciyu-iskal-05-29
#математика #статистика #автокорреляция
Спойлер:
https://telegra.ph/Kak-ya-u-Transparency-International-avtokorrelyaciyu-iskal-05-29
#математика #статистика #автокорреляция
Telegraph
Как я у Transparency International автокорреляцию искал
Однажды летне-весенним утром, когда я уже помыл руки после интернета, мне на глаза попался один презанятный персонаж. Ссылочку на диалог прилагаю.
Решил сегодня отпраздновать первый пост и написать тут же второй, благо Владимир из предыдущего поста не унимался и нарывался еще больше. Штош! В следующей поучительной заметке мы продолжим копаться в подноготной исследований, которые вам могут кидать в качестве пруфов своей точки зрения.
Не бойтесь отстаивать свое мнение, не поддавайтесь авторитетам! И поехали!
https://telegra.ph/Kak-statistika-prevrashchaet-korolej-v-demokratov-05-29
#математика #статистика #регрессия #плохиеданные
Не бойтесь отстаивать свое мнение, не поддавайтесь авторитетам! И поехали!
https://telegra.ph/Kak-statistika-prevrashchaet-korolej-v-demokratov-05-29
#математика #статистика #регрессия #плохиеданные
Telegraph
Как статистика превращает королей в демократов
Когда Владимир не смог вывезти на Transparency International, что для него было в новинку, очевидно, он попытался бегло нагуглить хоть что-нибудь в яндексе, чтобы заткнуть рот мне. К сожалению, мыть руки он не стал, поэтому принес пару источников, которые…
Ошибка выжившего: Почему мы все еще верим в чудеса?
Когда мы слышим истории о невероятных успехах, мы часто забываем о тех, кто не добился успеха. Это и есть ошибка выжившего. Давайте разберемся, что это такое и почему она так важна, а потом покекаем с некоторых примерчиков.
Что такое ошибка выжившего?
Ошибка выжившего — это логическая ошибка, при которой мы делаем выводы на основе тех, кто "выжил" или добился успеха, игнорируя тех, кто не достиг успеха. Это как если бы мы решили, что все программисты становятся миллиардерами, потому что знаем о Билле Гейтсе и Марке Цукерберге, но забываем о тысячах программистов, которые работают в подвалах и программируют за еду.
Примеры ошибки выжившего
1. Самолеты и дыры от пуль
Наф сэд. Укреплять надо было не те места, которые были изрешечены пулями при посадке, а все остальные, так как прочности именно им не хватало, чтобы вернуться.
2. Дельфины спасают людей
Многие слышали красивые истории о том, какие дельфины умные и спасают моряков с затонувших кораблей? Толкают их к берегу, помогают доплыть? Рассказывают это, конечно, выжившие моряки. А вот те моряки, которых дельфины уносили в открытое море, обычно не рассказывают прохладные истории. И это мы еще не касаемся других особенностей дельфинов: ни в коем случае не гуглите ничего про дельфинов, иначе ваша жизнь не будет прежней!
3. Истории успеха
Мы часто слышим истории о людях, которые бросили школу и стали миллиардерами. "Если Билл Гейтс смог, то и я смогу!" — думаем мы. Но мы забываем о миллионах людей, которые бросили школу и не стали миллиардерами. Возможно, они стали экспертами по доставке пиццы? Или аналитиками, которые уже два года не могут написать бота, который бы постил правила чата?
Как избежать ошибки выжившего?
1. Смотреть на всю картину
Не стоит делать выводы на двух-трех примерах. Стоит понимать "вес" этих примеров в генеральной совокупности. И не забывайте про негативные случаи, их тоже всегда стоит рассматривать. Помните, что всегда есть исключения, которые подтверждают правило.
2. Анализировать данные
Используйте статистику и анализ данных, чтобы принимать обоснованные решения. Именно этому мы будем тут учиться - использовать статистику в любой непонятной ситуации.
Вывод
Ошибка выжившего — это распространенная логическая ошибка, которая может привести к неверным выводам и решениям. Будьте критичны и анализируйте всю информацию, а не только истории успеха. И помните, что за каждым успешным человеком стоит множество неудач, о которых мы никогда не узнаем.
#статистика #математика
Когда мы слышим истории о невероятных успехах, мы часто забываем о тех, кто не добился успеха. Это и есть ошибка выжившего. Давайте разберемся, что это такое и почему она так важна, а потом покекаем с некоторых примерчиков.
Что такое ошибка выжившего?
Ошибка выжившего — это логическая ошибка, при которой мы делаем выводы на основе тех, кто "выжил" или добился успеха, игнорируя тех, кто не достиг успеха. Это как если бы мы решили, что все программисты становятся миллиардерами, потому что знаем о Билле Гейтсе и Марке Цукерберге, но забываем о тысячах программистов, которые работают в подвалах и программируют за еду.
Примеры ошибки выжившего
1. Самолеты и дыры от пуль
Наф сэд. Укреплять надо было не те места, которые были изрешечены пулями при посадке, а все остальные, так как прочности именно им не хватало, чтобы вернуться.
2. Дельфины спасают людей
Многие слышали красивые истории о том, какие дельфины умные и спасают моряков с затонувших кораблей? Толкают их к берегу, помогают доплыть? Рассказывают это, конечно, выжившие моряки. А вот те моряки, которых дельфины уносили в открытое море, обычно не рассказывают прохладные истории. И это мы еще не касаемся других особенностей дельфинов: ни в коем случае не гуглите ничего про дельфинов, иначе ваша жизнь не будет прежней!
3. Истории успеха
Мы часто слышим истории о людях, которые бросили школу и стали миллиардерами. "Если Билл Гейтс смог, то и я смогу!" — думаем мы. Но мы забываем о миллионах людей, которые бросили школу и не стали миллиардерами. Возможно, они стали экспертами по доставке пиццы? Или аналитиками, которые уже два года не могут написать бота, который бы постил правила чата?
Как избежать ошибки выжившего?
1. Смотреть на всю картину
Не стоит делать выводы на двух-трех примерах. Стоит понимать "вес" этих примеров в генеральной совокупности. И не забывайте про негативные случаи, их тоже всегда стоит рассматривать. Помните, что всегда есть исключения, которые подтверждают правило.
2. Анализировать данные
Используйте статистику и анализ данных, чтобы принимать обоснованные решения. Именно этому мы будем тут учиться - использовать статистику в любой непонятной ситуации.
Вывод
Ошибка выжившего — это распространенная логическая ошибка, которая может привести к неверным выводам и решениям. Будьте критичны и анализируйте всю информацию, а не только истории успеха. И помните, что за каждым успешным человеком стоит множество неудач, о которых мы никогда не узнаем.
#статистика #математика
Статистика и ложь: противодействие обману
После вскрытия нейросетками лжи и манипуляций блогера из поста выше, решил начать серию заметок полезных для не слишком погруженных в математологию людей, где мы будем разбирать техники манипулирования сознанием читателя. Научимся находить в математических исследованиях места, которые авторы пытаются замылить. Такое часто можно встретить при чтении экономических новостей, например, заметки о стоимости акций Apple и Tesla. Готовы? Тогда пристегните ремни – мы отправляемся! И первая остановка – графики.
Графики не просто инструмент анализа данных — они обладают удивительной способностью создавать визуальные иллюзии. Изменение масштаба оси Y может значительно изменить восприятие данных. Например, даже небольшой прирост в процентах может выглядеть как внушительный рост, если начать шкалу с достаточно высокого значения.
Давайте поглядим на картинку в шапке поста. Сначала взглянем на график «БЫЛО», а потом на «СТАЛО». Где рост кажется внушительным, на первом или втором графике? Как вам резкое падение почти к «нулю» в центре и на конце на втором? Выглядит угрожающе?
Но не стоит сразу записывать всех, кто использует эту технику в манипуляторы. Иногда действительно очень удобно менять масштаб, например, когда график строится для очень больших значений, такое часто можно встретить на фондовом рынке. Тем не менее, каждый должен научиться «читать» это изменение масштаба и понимать на сколько оно было уместным и не пытается кто-то вам «навязать» мысль о падении к нулю, как у нас на втором примере.
Вывод: Использование графиков с измененной шкалой Y – это не только способ визуализации данных, но и мощный инструмент воздействия на аудиторию. Эффект визуального увеличения изменений делает небольшие достижения более заметными и впечатляющими, а небольшое падение угрожающим. Именно по этой причине важно видеть этот прием, чтобы понимать не искаженное, а истинное положение дел.
P.S. Вопросик к моим читателям. Я взял данные из какого-то источника для графиков из нашего поста, но пока источник будет тайной. У него было два столбца: real и rnd. Накидайте вариантов расшифровки этих столбцов в комментариях, только чур не подглядывать!
#математика #статистика #графики #манипуляции #ложь
После вскрытия нейросетками лжи и манипуляций блогера из поста выше, решил начать серию заметок полезных для не слишком погруженных в математологию людей, где мы будем разбирать техники манипулирования сознанием читателя. Научимся находить в математических исследованиях места, которые авторы пытаются замылить. Такое часто можно встретить при чтении экономических новостей, например, заметки о стоимости акций Apple и Tesla. Готовы? Тогда пристегните ремни – мы отправляемся! И первая остановка – графики.
Графики не просто инструмент анализа данных — они обладают удивительной способностью создавать визуальные иллюзии. Изменение масштаба оси Y может значительно изменить восприятие данных. Например, даже небольшой прирост в процентах может выглядеть как внушительный рост, если начать шкалу с достаточно высокого значения.
Давайте поглядим на картинку в шапке поста. Сначала взглянем на график «БЫЛО», а потом на «СТАЛО». Где рост кажется внушительным, на первом или втором графике? Как вам резкое падение почти к «нулю» в центре и на конце на втором? Выглядит угрожающе?
Но не стоит сразу записывать всех, кто использует эту технику в манипуляторы. Иногда действительно очень удобно менять масштаб, например, когда график строится для очень больших значений, такое часто можно встретить на фондовом рынке. Тем не менее, каждый должен научиться «читать» это изменение масштаба и понимать на сколько оно было уместным и не пытается кто-то вам «навязать» мысль о падении к нулю, как у нас на втором примере.
Вывод: Использование графиков с измененной шкалой Y – это не только способ визуализации данных, но и мощный инструмент воздействия на аудиторию. Эффект визуального увеличения изменений делает небольшие достижения более заметными и впечатляющими, а небольшое падение угрожающим. Именно по этой причине важно видеть этот прием, чтобы понимать не искаженное, а истинное положение дел.
P.S. Вопросик к моим читателям. Я взял данные из какого-то источника для графиков из нашего поста, но пока источник будет тайной. У него было два столбца: real и rnd. Накидайте вариантов расшифровки этих столбцов в комментариях, только чур не подглядывать!
#математика #статистика #графики #манипуляции #ложь
Этот месяц богат на вдохновления и лонгриды! Большой поклон комментаторам "зеркала", которые мотивировали меня на небольшой разбор. Хотя тема политики и военных действий не является основной для канала, но и там есть место, где можно развернуться со статистикой! Сравним же с помощью статистики два громких события для 2023 и 2024 годов: Контрнаступ ВСУ и Наступление ВС РФ.
Кроме того, хотелось бы обратить внимание, что это не окончательный анализ совершившихся событий, а второе мы сейчас наблюдаем в динамике и это далеко не конец. А если вы не согласны с моей оценкой, то добро пожаловать в комментарии!
https://telegra.ph/Statistika-nastupleniya-07-25
#статистика #математика
Кроме того, хотелось бы обратить внимание, что это не окончательный анализ совершившихся событий, а второе мы сейчас наблюдаем в динамике и это далеко не конец. А если вы не согласны с моей оценкой, то добро пожаловать в комментарии!
https://telegra.ph/Statistika-nastupleniya-07-25
#статистика #математика
Telegraph
Статистика наступления
Недавно видел просьбу в комментариях другого канала хоть кому-то подключиться к анализу двух событий из заголовка. Этот город заслуживает своего героя, поэтому я, как математолог, решил окунуться немного в не типичную для канала тему: а именно многофакторное…
Продолжим кекать на статистику из разных областей, а за одно лепить смешные мемасы. В этот раз потрогаем экономику на тему взаимосвязи потребления газа и активности этой самой экономики. Все же помнят, как Европа гордо отказывалась от газа, мол, уменьшим потребление на 15% и все такое?
И вот поглядим на промежуточный итог потребления газа по май в Европе по мнению Евростата: 18,55 млрд куб. м. Это всего газа, а не только трубопроводного.
Для сравнения:
май 2019 — 27,72 млрд куб. м
май 2020 — 23,645 млрд куб. м
май 2021 — 26,73 млрд куб. м
май 2022 — 21,74 млрд куб. м
май 2023 — 20,26 млрд куб. м
А теперь посмотрим на экономические показатели Германии, локомотива европейской экономики: с июля 2022 индекс PMI ниже 50, а это плохо и означает падение промки. А сегодня еще и данные по снижению ВВП подъехали. Не удивительно, что в еще в 2022 году Россия обогнала Германию по ВВП по ППС.
Вот такие вот взаимосвязи в нашей веселой маскальской лженауке. И в целом же логично: если падает потребление газа, то падает и экономическая активность. Но кто будет слушать голос разума в этом безумном мире фейков и хайпа, кроме подписчиков этого уютного бложека?
#статистика #экономика #мемы #танос #юмор
И вот поглядим на промежуточный итог потребления газа по май в Европе по мнению Евростата: 18,55 млрд куб. м. Это всего газа, а не только трубопроводного.
Для сравнения:
май 2019 — 27,72 млрд куб. м
май 2020 — 23,645 млрд куб. м
май 2021 — 26,73 млрд куб. м
май 2022 — 21,74 млрд куб. м
май 2023 — 20,26 млрд куб. м
А теперь посмотрим на экономические показатели Германии, локомотива европейской экономики: с июля 2022 индекс PMI ниже 50, а это плохо и означает падение промки. А сегодня еще и данные по снижению ВВП подъехали. Не удивительно, что в еще в 2022 году Россия обогнала Германию по ВВП по ППС.
Вот такие вот взаимосвязи в нашей веселой маскальской лженауке. И в целом же логично: если падает потребление газа, то падает и экономическая активность. Но кто будет слушать голос разума в этом безумном мире фейков и хайпа, кроме подписчиков этого уютного бложека?
#статистика #экономика #мемы #танос #юмор
Вчера Дуров внезапно заявил, что стал отцом для более чем 100 детям в 12 странах мира, и мы не могли обойти эту завораживающую новость. А так как наш канал любит разные математические задачки, то предлагаю следующую: какова вероятность детям создателя нашего Телеграмма случайно найти своего братика или сестричку? Ну и немного формализуем задачу, а именно ограничимся только Россией и только 100 (прописью сотней) детей. А дальше будем опираться на данные Росстата и другие источники. Готовы? Тогда томно произносим «Oni-chan~» и приступаем к самому приятному – расчетам!
https://telegra.ph/Bratik-i-sestrichka-Durovy-07-30
#математика #теорвер #статистика #Дуров
https://telegra.ph/Bratik-i-sestrichka-Durovy-07-30
#математика #теорвер #статистика #Дуров
Telegraph
Братик и сестричка Дуровы
Настало время нам всем познакомиться с прекрасным ресурсом «Росстат» поближе, особенно когда у нас есть отличный повод! Будем считать вероятность случайно встречи детей Павла Дурова. Ну вы понимаете, о чем я. Найдем на сайте Росстата численность россиян по…
Вернемся к нашей любимой статистике в экономике. Давайте поговорим об инфляции. За последние 3 года она составила около 30% или рост цен можно наблюдать в 1.3 раза, что без сомнений ниже, чем полтора раза.
Но давайте поглядим не в целом по больнице, а только на парочке позиций, но специфических. Первый наш лот: рация Baofeng, в 2019 году такая игрушка стоила жалких 1400 на том же сайте, теперь же 3700 тысячи. Неплохо подросла, почти в 2.5 раза. Знающие люди говорят, что с прошлого года рост был больше 1.5 раз.
Теперь же глянем на Mavic Mini 3 Pro за 55 тысяч в 2021 году. Сегодня он стоит уже больше сотни. Опять рост больше чем в 1.5 раза, почти в 2 раза.
Теперь самое интересное. Какой же вывод у этой истории? Жить стало дорого? Нет, конечно. Ни для кого не секрет, что добровольцы собираются не только с помощью прапорщиков из МО. Удобные рации, бронежилеты, каски, коптеры – все это берется с выплаты добровольцу, а еще лучше – заранее, даже до нее. Наша армия без сомнений выдает большую часть перечисленного, но есть отличие между дополнительными керамическими пластинами повышенного класса защиты и штатными.
Теперь вопрос читателям: вот мы посмотрели на цены, знаем, как собирается доброволец, и мы будем верить в разгоны наратива ЦИПСО-каналов, что вчера Владимир Владимирович поднял выплаты, так как добровольцев не осталось, а не из-за того, что снаряжение дорожает? Какая из причин выглядит правдоподобнее? Посмотрите результаты запроса «что взять мобилизованному» и сразу поймете, что все в этом списке дорожает.
Так что не скучаем и пользуемся статистикой правильно!
#статистика #экономика #инфляция
Но давайте поглядим не в целом по больнице, а только на парочке позиций, но специфических. Первый наш лот: рация Baofeng, в 2019 году такая игрушка стоила жалких 1400 на том же сайте, теперь же 3700 тысячи. Неплохо подросла, почти в 2.5 раза. Знающие люди говорят, что с прошлого года рост был больше 1.5 раз.
Теперь же глянем на Mavic Mini 3 Pro за 55 тысяч в 2021 году. Сегодня он стоит уже больше сотни. Опять рост больше чем в 1.5 раза, почти в 2 раза.
Теперь самое интересное. Какой же вывод у этой истории? Жить стало дорого? Нет, конечно. Ни для кого не секрет, что добровольцы собираются не только с помощью прапорщиков из МО. Удобные рации, бронежилеты, каски, коптеры – все это берется с выплаты добровольцу, а еще лучше – заранее, даже до нее. Наша армия без сомнений выдает большую часть перечисленного, но есть отличие между дополнительными керамическими пластинами повышенного класса защиты и штатными.
Теперь вопрос читателям: вот мы посмотрели на цены, знаем, как собирается доброволец, и мы будем верить в разгоны наратива ЦИПСО-каналов, что вчера Владимир Владимирович поднял выплаты, так как добровольцев не осталось, а не из-за того, что снаряжение дорожает? Какая из причин выглядит правдоподобнее? Посмотрите результаты запроса «что взять мобилизованному» и сразу поймете, что все в этом списке дорожает.
Так что не скучаем и пользуемся статистикой правильно!
#статистика #экономика #инфляция
Как данные изменили спорт
Спорт был и остается источником разнообразных и искренних эмоций. И чем крупнее спортивное событие, тем эмоций больше, а сами они – сильнее. Но что, если воспринимать спорт как большую игру чисел? Да-да, встречайте: статистика в спорте!
Современные тренеры давно не полагаются на интуицию и чутье: выпестованные ими звезды становятся таковыми благодаря упорным тренировкам и математически выверенной удаче. Представьте себе тренера футбольной команды 70-х годов, который со словами «Я чувствую, что сегодня Иванов забьет!» ставит игрока на поле. В те времена тренеры больше полагались на интуицию и личные предпочтения, сейчас такое решение будет подкреплено анализом предыдущих выступлений Иванова, завершающимся позитивным прогнозом.
В баскетболе математический анализ часто используют для определения наиболее выгодных бросков. Почему? Да потому что статистика! Очевидно, что трёхочковые броски приносят больше очков за игру. Даже в футболе тренеры теперь рассчитывают, когда именно стоит выпустить свежего игрока, чтобы он принёс максимум пользы.
Статистика в спорте – как тайное оружие, которое меняет правила игры. А чтобы статистика не превратила спорт в сухое исчисление, перед каждым интересным соревнованием можно составлять прогноз с помощью искусственного интеллекта, возможно однажды мы с вами сможем сделать что-то подобное. Держитесь, беттинговые агенства! Все ставки в труху! Но потом...
#статистика #спорт #ии
Спорт был и остается источником разнообразных и искренних эмоций. И чем крупнее спортивное событие, тем эмоций больше, а сами они – сильнее. Но что, если воспринимать спорт как большую игру чисел? Да-да, встречайте: статистика в спорте!
Современные тренеры давно не полагаются на интуицию и чутье: выпестованные ими звезды становятся таковыми благодаря упорным тренировкам и математически выверенной удаче. Представьте себе тренера футбольной команды 70-х годов, который со словами «Я чувствую, что сегодня Иванов забьет!» ставит игрока на поле. В те времена тренеры больше полагались на интуицию и личные предпочтения, сейчас такое решение будет подкреплено анализом предыдущих выступлений Иванова, завершающимся позитивным прогнозом.
В баскетболе математический анализ часто используют для определения наиболее выгодных бросков. Почему? Да потому что статистика! Очевидно, что трёхочковые броски приносят больше очков за игру. Даже в футболе тренеры теперь рассчитывают, когда именно стоит выпустить свежего игрока, чтобы он принёс максимум пользы.
Статистика в спорте – как тайное оружие, которое меняет правила игры. А чтобы статистика не превратила спорт в сухое исчисление, перед каждым интересным соревнованием можно составлять прогноз с помощью искусственного интеллекта, возможно однажды мы с вами сможем сделать что-то подобное. Держитесь, беттинговые агенства! Все ставки в труху! Но потом...
#статистика #спорт #ии
Суперигра!
Продолжаем исследовать блогосферу с помощью математики и статистики. В этот раз без ИИ. Любой, кто прочитает данный материал, получит 100% способ найти скрытого агента СБУ всего с помощью одного слова. Кто-то скажет, что это кликбейт и в статье ничего подобного не будет, но не в этот раз. Мы с вами сыграем в увлекательную игру, найдем с помощью простого теста этнических украинцев, а за одно протестируем анонимного блогера на украинство.
В ваших руках будет супер-оружие, которому бы позавидовали даже ФСБ. Не волнуйтесь, товарищу майору мы отправили копию статьи на флешке. Если готовы, то добро пожаловать к нам!
https://telegra.ph/Najdi-chub-po-grafiku-09-12
#лонгрид #аналитика #математика #статистика
Продолжаем исследовать блогосферу с помощью математики и статистики. В этот раз без ИИ. Любой, кто прочитает данный материал, получит 100% способ найти скрытого агента СБУ всего с помощью одного слова. Кто-то скажет, что это кликбейт и в статье ничего подобного не будет, но не в этот раз. Мы с вами сыграем в увлекательную игру, найдем с помощью простого теста этнических украинцев, а за одно протестируем анонимного блогера на украинство.
В ваших руках будет супер-оружие, которому бы позавидовали даже ФСБ. Не волнуйтесь, товарищу майору мы отправили копию статьи на флешке. Если готовы, то добро пожаловать к нам!
https://telegra.ph/Najdi-chub-po-grafiku-09-12
#лонгрид #аналитика #математика #статистика
Telegraph
Найди чуб по графику
Меня много ругали за лингвистический анализ с помощью нейронный сетей различных блогеров. Часто это были мракобесы, которые, не разбираясь в передовых технологиях, просто повторяли мантру, что ИИ доверять нельзя, что это технология, которую невозможно валидировать.…
Немного о корреляции
Привет, друзья! Сегодня я хочу рассказать вам о корреляции в лингвистике и о том, как она может помочь нам лучше понимать языковые явления.
Корреляция — это линейная связь между двумя переменными. В лингвистике мы можем использовать корреляционный анализ для изучения связей между различными языковыми явлениями, такими как грамматика, лексика и фонетика. Например, как мы делали в предыдущем посте, найдя связь между употреблением "на сейчас" и "национальностью". Но нам надо пойти дальше в наших исследованиях, придать им больше веса. И для этого нам надо понять базу, и этой базой будет корреляция.
Предположим, мы хотим изучить связь между употреблением определенных слов и их частотой встречаемости в тексте. Мы можем обнаружить положительную корреляцию между употреблением определенного слова и его частотой встречаемости в тексте. Это может указывать на то, что это слово является ключевым в данном тексте и часто употребляется автором.
Однако, следует помнить, что корреляция не всегда означает причинно-следственную связь между переменными. В данном случае, мы не можем утверждать, что употребление определенного слова приводит к повышению частоты встречаемости в тексте или наоборот.
Таким образом, корреляционный анализ в лингвистике — это очень интересный и полезный инструмент, который помогает нам лучше понимать языковые явления и изучать языковые изменения. А чем мы будем изучать корреляцию? Конечно, с помощью нашего любимого python и пакета pandas в частности. И как обычно, после полного изучения инструментария, мы снова проведем крутой анализ, хотя и не будем менять последнюю тему. Так что советую приготовиться как следует, следующий материал будет сложным, но интересным!
#математика #статистика #обзор
Привет, друзья! Сегодня я хочу рассказать вам о корреляции в лингвистике и о том, как она может помочь нам лучше понимать языковые явления.
Корреляция — это линейная связь между двумя переменными. В лингвистике мы можем использовать корреляционный анализ для изучения связей между различными языковыми явлениями, такими как грамматика, лексика и фонетика. Например, как мы делали в предыдущем посте, найдя связь между употреблением "на сейчас" и "национальностью". Но нам надо пойти дальше в наших исследованиях, придать им больше веса. И для этого нам надо понять базу, и этой базой будет корреляция.
Предположим, мы хотим изучить связь между употреблением определенных слов и их частотой встречаемости в тексте. Мы можем обнаружить положительную корреляцию между употреблением определенного слова и его частотой встречаемости в тексте. Это может указывать на то, что это слово является ключевым в данном тексте и часто употребляется автором.
Однако, следует помнить, что корреляция не всегда означает причинно-следственную связь между переменными. В данном случае, мы не можем утверждать, что употребление определенного слова приводит к повышению частоты встречаемости в тексте или наоборот.
Таким образом, корреляционный анализ в лингвистике — это очень интересный и полезный инструмент, который помогает нам лучше понимать языковые явления и изучать языковые изменения. А чем мы будем изучать корреляцию? Конечно, с помощью нашего любимого python и пакета pandas в частности. И как обычно, после полного изучения инструментария, мы снова проведем крутой анализ, хотя и не будем менять последнюю тему. Так что советую приготовиться как следует, следующий материал будет сложным, но интересным!
#математика #статистика #обзор
Продолжаем исследовать "на сейчас"
На прошлой неделе мы нашли шибболет по которому можно определить национальность того, кто писал этот пост. Но в первом исследовании было не так уж много подопытных. "На сегодня" их всего 6 подтвержденных. Так давайте проверим еще немного блогеров! Готовы? Тогда добро пожаловать в короткую заметку по ссылке ниже. Там нас ждет Шарий и еще два таинственных блогера, у которых мы нашли "на сейчас". И поверьте, вы будете удивлены!
https://telegra.ph/Proverka-metoda-na-SHarii-i-drugih-blogerah-09-17
#аналитика #математика #статистика
На прошлой неделе мы нашли шибболет по которому можно определить национальность того, кто писал этот пост. Но в первом исследовании было не так уж много подопытных. "На сегодня" их всего 6 подтвержденных. Так давайте проверим еще немного блогеров! Готовы? Тогда добро пожаловать в короткую заметку по ссылке ниже. Там нас ждет Шарий и еще два таинственных блогера, у которых мы нашли "на сейчас". И поверьте, вы будете удивлены!
https://telegra.ph/Proverka-metoda-na-SHarii-i-drugih-blogerah-09-17
#аналитика #математика #статистика
Telegraph
Проверка метода на Шарие и других блогерах
Как видно из названия, этот пост будет частично посвящен известному для многих блогеру, любителю шпицев, Анатолию Шарию. Хотя он и позиционировал себя украинским блогером, но аудитория на 70% у него состояла из россиян. Таким образом, Шарий является очень…
Статистика языка
Сегодня предлагаю выпить за граммы! Нет, не те, а за биграммы и триграммы! Что это такое? На самом деле мы уже разбирались в этом вопросе, но не использовали этот термин. Сейчас мы исправим это досадное упущение и рассмотрим данный метод анализа еще раз.
Один из часто используемых инструментов – подсчет частоты слов. Он нужен для того, чтобы понять, какие слова наиболее популярны в языке и как они связаны друг с другом. Например, если мы возьмем простенькую фразу: «А я вотсегодня на сейчас пошел в магазин и купил яблоки», то сможем посчитать, сколько раз встречается каждое слово, и узнать, что понятие «я» в коротком отрывке встречается два раза («я пошел» и «я купил»), а слово «сейчас» – один раз.
Также статистика, применительно к языку, позволяет анализировать биграммы и триграммы. Почти как в детективе, где нужно вычислить, кто с кем и когда общался: биграмма - это два слова, которые идут друг за другом, а триграмма - соответственно, три слова подряд. Анализ биграмм и триграмм позволяет нам понять, какие слова часто используются вместе.
Оба анализа, вернее, результаты таких исследований, позволяют предсказывать следующее слово в предложении. Например, если мы возьмем текст «Сегодня я пошел в магазин и купил…», то на основе того, какие слова часто используются вместе, можно предположить следующее слово. К примеру, «яблоки», как в тексте выше: размышляя над тем, что именно можно купить в магазине, мы будем перебирать явно не глаголы, а «яблоки» статистически являются примером часто употребляемых слов.
Так статистика помогает лучше понимать алгоритмы и правила языка и использовать его более эффективно. Инструменты статистики могут быть полезны для автоматического перевода, создания языковых моделей и машинного обучения.
#математика #статистика #лингвистика
Сегодня предлагаю выпить за граммы! Нет, не те, а за биграммы и триграммы! Что это такое? На самом деле мы уже разбирались в этом вопросе, но не использовали этот термин. Сейчас мы исправим это досадное упущение и рассмотрим данный метод анализа еще раз.
Один из часто используемых инструментов – подсчет частоты слов. Он нужен для того, чтобы понять, какие слова наиболее популярны в языке и как они связаны друг с другом. Например, если мы возьмем простенькую фразу: «А я вот
Также статистика, применительно к языку, позволяет анализировать биграммы и триграммы. Почти как в детективе, где нужно вычислить, кто с кем и когда общался: биграмма - это два слова, которые идут друг за другом, а триграмма - соответственно, три слова подряд. Анализ биграмм и триграмм позволяет нам понять, какие слова часто используются вместе.
Оба анализа, вернее, результаты таких исследований, позволяют предсказывать следующее слово в предложении. Например, если мы возьмем текст «Сегодня я пошел в магазин и купил…», то на основе того, какие слова часто используются вместе, можно предположить следующее слово. К примеру, «яблоки», как в тексте выше: размышляя над тем, что именно можно купить в магазине, мы будем перебирать явно не глаголы, а «яблоки» статистически являются примером часто употребляемых слов.
Так статистика помогает лучше понимать алгоритмы и правила языка и использовать его более эффективно. Инструменты статистики могут быть полезны для автоматического перевода, создания языковых моделей и машинного обучения.
#математика #статистика #лингвистика
Частотные диаграммы
Вот так выглядит частотная диаграмма для блогера. Какого? Пока секрет! Давайте попробуем отгадать в комментариях, а я пока немного поясню как эта картинка получается.
Для начала мы нормализуем все слова, то есть приводим их в именительный падеж единственного числа для всяких существительных, и в неопределенную форму несовершенного вида глаголы. Это нужно, чтобы считать смыслы, а не формы: одел или оделся, не так уж важно, но по этому слову мы поймем, что блог скорее всего про моду, например.
Вторым заходом мы чистим с помощью стоп-листа от незначащих слов. В первую очередь это союзы, предлоги и прочие бессмысленные слова, которые связывают другие слова. Например, одно из самых частотных слов - союз и. Примерно та же ситуация и с предлогами, которые обходят по популярности многие слова со смыслом.
И вот когда мы все почистили - можем выводить на экран диаграмму. Слева видим количество слов в тексте, то есть частоту, а снизу сами слова. Высота каждого ряда показывает точное значение этих слов. И вот теперь на экране 20 самых популярных! Если кого-то заинтересует код, который такую простенькую манипуляцию над данными проводит, то не стесняйтесь и пишите в ЛС или в комментарии. Кстати, сейчас вы уже можете называть себя лингвистами!
Какой следующий шаг? Такой же анализ биграмм и триграмм! Кидайте варианты блогеров на проверку, постараемся всем помочь!
#математика #статистика #лингвистика
Вот так выглядит частотная диаграмма для блогера. Какого? Пока секрет! Давайте попробуем отгадать в комментариях, а я пока немного поясню как эта картинка получается.
Для начала мы нормализуем все слова, то есть приводим их в именительный падеж единственного числа для всяких существительных, и в неопределенную форму несовершенного вида глаголы. Это нужно, чтобы считать смыслы, а не формы: одел или оделся, не так уж важно, но по этому слову мы поймем, что блог скорее всего про моду, например.
Вторым заходом мы чистим с помощью стоп-листа от незначащих слов. В первую очередь это союзы, предлоги и прочие бессмысленные слова, которые связывают другие слова. Например, одно из самых частотных слов - союз и. Примерно та же ситуация и с предлогами, которые обходят по популярности многие слова со смыслом.
И вот когда мы все почистили - можем выводить на экран диаграмму. Слева видим количество слов в тексте, то есть частоту, а снизу сами слова. Высота каждого ряда показывает точное значение этих слов. И вот теперь на экране 20 самых популярных! Если кого-то заинтересует код, который такую простенькую манипуляцию над данными проводит, то не стесняйтесь и пишите в ЛС или в комментарии. Кстати, сейчас вы уже можете называть себя лингвистами!
Какой следующий шаг? Такой же анализ биграмм и триграмм! Кидайте варианты блогеров на проверку, постараемся всем помочь!
#математика #статистика #лингвистика
Google, Yandex, два числа
В России выпал снег, а значит самое время для чего-то внезапного. А что может быть внезапнее, чем материал по потерям? Огромный лонгрид с кучей картинок, который посвящен анализу запросов в Google по потерям. Это не подсчет некрологов, а гораздо более глубокий анализ данных. Точных цифр мы пока не получим, но первый шаг к самому точному анализу мы сделаем. Приятного чтения!
https://telegra.ph/Ukrainskie-poteri-cherez-prizmu-zaprosov-v-Google-10-15
#математика #статистика #Google #Yandex #GoogleTrends #лонгрид #аналитика #Украина
В России выпал снег, а значит самое время для чего-то внезапного. А что может быть внезапнее, чем материал по потерям? Огромный лонгрид с кучей картинок, который посвящен анализу запросов в Google по потерям. Это не подсчет некрологов, а гораздо более глубокий анализ данных. Точных цифр мы пока не получим, но первый шаг к самому точному анализу мы сделаем. Приятного чтения!
https://telegra.ph/Ukrainskie-poteri-cherez-prizmu-zaprosov-v-Google-10-15
#математика #статистика #Google #Yandex #GoogleTrends #лонгрид #аналитика #Украина
Telegraph
Украинские потери через призму запросов в Google
На фоне жарких дискуссий и бесконечных споров о потерях, я не смог удержаться от соблазна хайпануть и блеснуть своим OSINT-анализом. И в этот раз мы поговорим о полных потерях, а не только числе убитых. Мы потрогаем пленных, рассмотрим раненых, найдем пропавших…
В продолжение к предыдущему посту.
В комментариях здраво заметили, что вовлеченность украинцев может быть выше по разным причинам. Таким образом, нужно цифры нормировать. Я этого в первый подход не сделал, каюсь, но сейчас я исправлюсь. Прикрепляю картинку и ссылку, где снова с помощью Google Trends сравним вовлеченность, но уже в целом по СВО, а не по отдельным ее вопросам.
В первую очередь я объясню, почему на картинке 4 графика. Думаю, не секрет, что СВО на Украине воспринимается как русско-украинская война, по этой причине одним запросом невозможно полностью оценить данную тему. Приходится раздельно делать "украинский" запрос и отдельно "российский". А потом суммировать: желтый с красным и синий с зеленым.
Таким образом очевидно соотношение 1 к 4, то есть в РФ вовлечены не меньше, чем на Украине. Соотношение населения между странами как раз в диапазоне от 1 к 3.5 до 1 к 6, смотря что брать за источник информации.
Перед нами простой промежуточный вывод: вовлеченность в тематику СВО в обоих странах примерно одинакова, с учетом разницы в размерах.
В то же время россиян интересуют больше просто новости, а украинцев потери. Как я уже говорил в предыдущем материале, разница в индексе заинтересованности в 30 раз (как считался этот индекс, можете прочитать сами). Отрицать этот факт – полная глупость. Таким образом можно сделать вывод, что потери для украинцев гораздо более больная тема. Данная ситуация может быть только в одном случае – украинцев погибает больше. При чем сильно больше, учитывая разницу между индексами в 30 раз. Тем не менее, как я уже говорил, зависимость этого индекса от потерь не изучена совсем и у меня большие сомнения, что она 1 к 1. Но я все же склонен считать, что даже в абсолютных цифрах потери Украины должны быть больше.
Окончательный вывод: те, кто говорил, что россияне меньше интересуются СВО, так как у них война не у ворот, оказались неправы. На душу населения интерес в обоих странах одинаков. Таким образом тема потерь для украинцев выше. Объяснить это можно только одним фактом – у Украины потери выше.
#математика #статистика #Google #GoogleTrends #аналитика #Украина
В комментариях здраво заметили, что вовлеченность украинцев может быть выше по разным причинам. Таким образом, нужно цифры нормировать. Я этого в первый подход не сделал, каюсь, но сейчас я исправлюсь. Прикрепляю картинку и ссылку, где снова с помощью Google Trends сравним вовлеченность, но уже в целом по СВО, а не по отдельным ее вопросам.
В первую очередь я объясню, почему на картинке 4 графика. Думаю, не секрет, что СВО на Украине воспринимается как русско-украинская война, по этой причине одним запросом невозможно полностью оценить данную тему. Приходится раздельно делать "украинский" запрос и отдельно "российский". А потом суммировать: желтый с красным и синий с зеленым.
Таким образом очевидно соотношение 1 к 4, то есть в РФ вовлечены не меньше, чем на Украине. Соотношение населения между странами как раз в диапазоне от 1 к 3.5 до 1 к 6, смотря что брать за источник информации.
Перед нами простой промежуточный вывод: вовлеченность в тематику СВО в обоих странах примерно одинакова, с учетом разницы в размерах.
В то же время россиян интересуют больше просто новости, а украинцев потери. Как я уже говорил в предыдущем материале, разница в индексе заинтересованности в 30 раз (как считался этот индекс, можете прочитать сами). Отрицать этот факт – полная глупость. Таким образом можно сделать вывод, что потери для украинцев гораздо более больная тема. Данная ситуация может быть только в одном случае – украинцев погибает больше. При чем сильно больше, учитывая разницу между индексами в 30 раз. Тем не менее, как я уже говорил, зависимость этого индекса от потерь не изучена совсем и у меня большие сомнения, что она 1 к 1. Но я все же склонен считать, что даже в абсолютных цифрах потери Украины должны быть больше.
Окончательный вывод: те, кто говорил, что россияне меньше интересуются СВО, так как у них война не у ворот, оказались неправы. На душу населения интерес в обоих странах одинаков. Таким образом тема потерь для украинцев выше. Объяснить это можно только одним фактом – у Украины потери выше.
#математика #статистика #Google #GoogleTrends #аналитика #Украина
Новая эра республиканцев
На прошедших выборах Дональд Трамп одержал убедительную победу. Республиканцы не только укрепили свои позиции в Сенате, получив большинство, но и, с высокой долей вероятности, возглавят Палату представителей. Этот результат сосредоточит полноту власти в руках Трампа и создаст уникальную политическую ситуацию в США.
Многие эксперты и комментаторы, касаясь Трампа, зачастую используют термин "маргинал", но это выражение совершенно не отражает действительность. Трамп не является изолированным политическим актором. В отличие от маргинальных партий, таких как ADG в Германии или "Национальное объединение" Марин Ле Пен во Франции, которые действуют вне мейнстрима, Трамп обладает значительной поддержкой и влиятельными союзниками внутри республиканской партии.
В последние годы мы стали свидетелями того, как "трамписты" – приверженцы Трампа, становятся заметной частью политической структуры. Это было очевидно, когда Майка Джонса назначили в 2023 года спикером Палаты представителей, когда они своевременно избрали своих представителей на различных уровнях. Трамп, хотя и воспринимается некоторыми как радикал, все же остается ключевой фигурой, с которой охотно вступают в союз разные фракции внутри республиканской партии. Это говорит о том, что его влияние продолжает расти, а поддержка выходит далеко за пределы обычных партийных рамок.
С учетом полученного контроля над обеими палатами Конгресса, республиканцы под руководством Трампа могут осуществить свои планы в полном объеме. Мы можем ожидать значительных изменений в законодательстве, политику экономического характера, а также возможные политические реформы, которые ранее казались невозможными. В ближайшее время постараемся разобрать, что же влечет эта победа для нас всех. Но первое, что хотелось бы заметить - новый президент в США вступит в должность только в январе, по этой причине у Джо Байдена есть еще возможность "подложить свинью" Донни, если вы понимаете о чем я.
#США #выборы #статистика #обзор
На прошедших выборах Дональд Трамп одержал убедительную победу. Республиканцы не только укрепили свои позиции в Сенате, получив большинство, но и, с высокой долей вероятности, возглавят Палату представителей. Этот результат сосредоточит полноту власти в руках Трампа и создаст уникальную политическую ситуацию в США.
Многие эксперты и комментаторы, касаясь Трампа, зачастую используют термин "маргинал", но это выражение совершенно не отражает действительность. Трамп не является изолированным политическим актором. В отличие от маргинальных партий, таких как ADG в Германии или "Национальное объединение" Марин Ле Пен во Франции, которые действуют вне мейнстрима, Трамп обладает значительной поддержкой и влиятельными союзниками внутри республиканской партии.
В последние годы мы стали свидетелями того, как "трамписты" – приверженцы Трампа, становятся заметной частью политической структуры. Это было очевидно, когда Майка Джонса назначили в 2023 года спикером Палаты представителей, когда они своевременно избрали своих представителей на различных уровнях. Трамп, хотя и воспринимается некоторыми как радикал, все же остается ключевой фигурой, с которой охотно вступают в союз разные фракции внутри республиканской партии. Это говорит о том, что его влияние продолжает расти, а поддержка выходит далеко за пределы обычных партийных рамок.
С учетом полученного контроля над обеими палатами Конгресса, республиканцы под руководством Трампа могут осуществить свои планы в полном объеме. Мы можем ожидать значительных изменений в законодательстве, политику экономического характера, а также возможные политические реформы, которые ранее казались невозможными. В ближайшее время постараемся разобрать, что же влечет эта победа для нас всех. Но первое, что хотелось бы заметить - новый президент в США вступит в должность только в январе, по этой причине у Джо Байдена есть еще возможность "подложить свинью" Донни, если вы понимаете о чем я.
#США #выборы #статистика #обзор