Обнаружив, что живых сторонников Навального не больше 250 тысяч, и процесс сбора практически остановился, @leonid_volkov начал исправлять ситуацию как умеет. То есть мухлевать.
Сегодня, в 16:30 мск он начал накручивать счётчик и накрутил себе 14736 человек за три часа. Причём начал он очень резво, с 1012 человек за пять минут, потом чуть притормозил (верхний график, суточная пятиминутка). Но даже на общем графике за 3,5 дня (нижний) видно, как линия резко скакнула вверх.
И потом эти люди будут нам рассказывать про честные выборы, да.
P. S. Спасибо господину С. за идею. Они не могли не облажаться и они облажались. Just as planned 😁
Сегодня, в 16:30 мск он начал накручивать счётчик и накрутил себе 14736 человек за три часа. Причём начал он очень резво, с 1012 человек за пять минут, потом чуть притормозил (верхний график, суточная пятиминутка). Но даже на общем графике за 3,5 дня (нижний) видно, как линия резко скакнула вверх.
И потом эти люди будут нам рассказывать про честные выборы, да.
P. S. Спасибо господину С. за идею. Они не могли не облажаться и они облажались. Just as planned 😁
Дорогой канал "Опер пишет... ", иногда лучше жевать, чем писать. Ваша "утечка базы free navalny" банальная липа. И это сразу было бы очевидно, если бы вы поставили скрин из неё.
Это какая-то очень старая база, больше пяти лет отроду, где есть фио, дата рождения и адрес гражданина. Некоторые из них являются сторонниками навального, некоторые много лет уже в нем разочаровались.
Но это не имеет никакого отношения к текущему сбору данных, где собирают email и адреса с точностью до дома.
Вы купились на каких-то мамкиных хакиров, которые хотят поднять 0.3 BTC на хайпе. Поздравляю.
А теперь, "вон из профессии!" © бабушка Альбац.
Вне зависимости от политических пристрастий, кормить оппонентов говном надо качественно. Вы с этой задачей не справились. Увы.
P. S. Следующий подробный разбор мухлежа Волкова выйдет завтра, в это же время, не переключайтесь
Это какая-то очень старая база, больше пяти лет отроду, где есть фио, дата рождения и адрес гражданина. Некоторые из них являются сторонниками навального, некоторые много лет уже в нем разочаровались.
Но это не имеет никакого отношения к текущему сбору данных, где собирают email и адреса с точностью до дома.
Вы купились на каких-то мамкиных хакиров, которые хотят поднять 0.3 BTC на хайпе. Поздравляю.
А теперь, "вон из профессии!" © бабушка Альбац.
Вне зависимости от политических пристрастий, кормить оппонентов говном надо качественно. Вы с этой задачей не справились. Увы.
P. S. Следующий подробный разбор мухлежа Волкова выйдет завтра, в это же время, не переключайтесь
Сегодня, в 14:47 мск, у ФБК окончательно сломалась крутилка переписи сторонников и реальность проявилась из под мишуры.
Как оказалось, в реальности сейчас регистрируется от 0 до 7 человек за 5 минут.
Графики идут от 0 до 19 часов мск, 29 марта. Верхний - 5 минутные усредненные интервалы. Нижний - сырые данные замеров раз в минуту.
P. S. Кто-то в фбк читает меня или другого наблюдателя. Они исправили ошибку сервера, с выдачей отрицательного прироста, через 6 часов после выхода моей записи :)
Как оказалось, в реальности сейчас регистрируется от 0 до 7 человек за 5 минут.
Графики идут от 0 до 19 часов мск, 29 марта. Верхний - 5 минутные усредненные интервалы. Нижний - сырые данные замеров раз в минуту.
P. S. Кто-то в фбк читает меня или другого наблюдателя. Они исправили ошибку сервера, с выдачей отрицательного прироста, через 6 часов после выхода моей записи :)
Всерьёз это уже комментировать невозможно, остаётся только наблюдать. Подписи за Навального вошли в зону "отрицательного роста".
Это общий график количества подписей по времени. Во втором окне, цифра прироста по суткам наблюдения. В принципе это конец всему, линия набора стала горизонтальной.
Трагикомический финал для человека, собравшего 7 лет назад, на выборах мэра Москвы, 630 тысяч голосов.
P. S. Большой материал несколько задерживается, но готовится.
Это общий график количества подписей по времени. Во втором окне, цифра прироста по суткам наблюдения. В принципе это конец всему, линия набора стала горизонтальной.
Трагикомический финал для человека, собравшего 7 лет назад, на выборах мэра Москвы, 630 тысяч голосов.
P. S. Большой материал несколько задерживается, но готовится.
О, база данных политчатиков, которую Фома использует для определения сексуальной политической ориентации пользователей, доросла до 900 тысяч человек.
Активности в политчатиках, как видите, все ещё нет. Суточный прирост составил 682 человека.
Активности в политчатиках, как видите, все ещё нет. Суточный прирост составил 682 человека.
Благодаря @rt_russian мое небольшое исследование вышло на большую аудиторию. Статью написал корреспондент, а графика и комментарии мои.
Это финальный аккорд, наблюдение останется, но писать о нем я не планирую до тех пор, пока они не докрутят до 500к или не остановят сбор.
У нас, дорогие читатели, найдётся о чем поговорить :)
Это финальный аккорд, наблюдение останется, но писать о нем я не планирую до тех пор, пока они не докрутят до 500к или не остановят сбор.
У нас, дорогие читатели, найдётся о чем поговорить :)
Telegram
RT на русском
«Это могла быть как внутренняя накрутка с сайта, так и внешняя, при помощи ботов. При этом накруткой могли заниматься не только администраторы сайта, но и сторонние поклонники Навального».
Программист из Москвы, автор Telegram-канала «СЛЕГ!» несколько дней…
Программист из Москвы, автор Telegram-канала «СЛЕГ!» несколько дней…
Хорошо вчерашний текст взлетел. Я не сразу догадался записывать репосты, а tgstat показывает только последние 50. Но к двум часам дня я накатал парсер и валидатор ссылок.
Список каналов, упомянувших или репостнувших мою статью после 14:00 мск 1 апреля.
КАРНАУХОВ (@sskarnaukhov) [41k]
КОРНИЛОВ (@kornilov1968) [36k]
Kotsnews (@sashakots) [68.6k]
Караульный (@karaulny) [117.4k]
Тот самый Томский правдоруб (@ourpravdorub) [787]
Выборный (@vibornyk) [38.6k]
Труба под Неглинной (@trubapodneglinnoy) [70k]
ШАФРАН (@annashafran) [40.9k]
ОПЕР Слил (@operdrain) [86.4k]
Ortega (@niemandswasser) [14.3k]
Fuck you That's Why (@fuckyouthatswhy) [18.8k]
Мирослава Бердник (@Varjag2007) [2.6k]
Бойлерная (@boilerroomchannel) [205k]
Сергей "Zergulio" Колясников (@SergeyKolyasnikov) [18.7k]
Фридрих (@FridrihShow) [2.9k]
ГОЛОВАНОВ (@romagolovanov) [14.4k]
Тюмень News (@TyumenNew) [1k]
Пул N3 (@dimsmirnov175) [66.5k]
Рейтинг КБР (@topkbr) [865]
Поддубный (@epoddubny) [34.9k]
Андрей Медведев (@MedvedevVesti) [27.1k]
ИА "Стекломой" (@ia_steklomoy) [58.2k]
Железный Феликс (@iron_feliks) [18.7k]
МАРДАН (@mardanaka) [10.4k]
О чём думает Совесть (@kostisovesti) [192]
Президент Гордон Live (@PresidentGordonLive) [777]
Ненастоящий сварщик (@unrealwelder) [6]
Суммарная аудитория каналов+RT: 1 151 024 человека.
Учитывая утренние репосты, получается, что суммарная аудитория > 1,5 миллионов человек. Просмотров статьи за сутки >200 тысяч.
Неплохо. Код утилит для полуавтоматического отслеживания репостов конкретного текста кладу в комментариях. :)
Список каналов, упомянувших или репостнувших мою статью после 14:00 мск 1 апреля.
КАРНАУХОВ (@sskarnaukhov) [41k]
КОРНИЛОВ (@kornilov1968) [36k]
Kotsnews (@sashakots) [68.6k]
Караульный (@karaulny) [117.4k]
Тот самый Томский правдоруб (@ourpravdorub) [787]
Выборный (@vibornyk) [38.6k]
Труба под Неглинной (@trubapodneglinnoy) [70k]
ШАФРАН (@annashafran) [40.9k]
ОПЕР Слил (@operdrain) [86.4k]
Ortega (@niemandswasser) [14.3k]
Fuck you That's Why (@fuckyouthatswhy) [18.8k]
Мирослава Бердник (@Varjag2007) [2.6k]
Бойлерная (@boilerroomchannel) [205k]
Сергей "Zergulio" Колясников (@SergeyKolyasnikov) [18.7k]
Фридрих (@FridrihShow) [2.9k]
ГОЛОВАНОВ (@romagolovanov) [14.4k]
Тюмень News (@TyumenNew) [1k]
Пул N3 (@dimsmirnov175) [66.5k]
Рейтинг КБР (@topkbr) [865]
Поддубный (@epoddubny) [34.9k]
Андрей Медведев (@MedvedevVesti) [27.1k]
ИА "Стекломой" (@ia_steklomoy) [58.2k]
Железный Феликс (@iron_feliks) [18.7k]
МАРДАН (@mardanaka) [10.4k]
О чём думает Совесть (@kostisovesti) [192]
Президент Гордон Live (@PresidentGordonLive) [777]
Ненастоящий сварщик (@unrealwelder) [6]
Суммарная аудитория каналов+RT: 1 151 024 человека.
Учитывая утренние репосты, получается, что суммарная аудитория > 1,5 миллионов человек. Просмотров статьи за сутки >200 тысяч.
Неплохо. Код утилит для полуавтоматического отслеживания репостов конкретного текста кладу в комментариях. :)
Когда админы чата отбили набег и хотят узнать, сколько же народу они положили.
Скрипт простенький, но меня выморозил. Начиная от названия класса ChannelAdminLogEventActionParticipantToggleBan (карл, за что?) и заканчивая сюрпризом, которого в документации нет.
Этот класс возвращает не только бан. Он ещё возвращает разбан (молодцы-то какие) и смену наказания, когда сначала дали мьют, а потом решили забанить. В первом случае, код без второй проверки ловит исключение и валится (за отсутствием параметра kicked_by).
Скрипт простенький, но меня выморозил. Начиная от названия класса ChannelAdminLogEventActionParticipantToggleBan (карл, за что?) и заканчивая сюрпризом, которого в документации нет.
Этот класс возвращает не только бан. Он ещё возвращает разбан (молодцы-то какие) и смену наказания, когда сначала дали мьют, а потом решили забанить. В первом случае, код без второй проверки ловит исключение и валится (за отсутствием параметра kicked_by).
Крупнейшая утечка данных фейсбука пошла в народ и дошла до меня.
База данных хорошего качества, поля содержат то, что и должны, некорректных записей всего две. Статистику первичной оценки вы видите на верхнем скриншоте.
База связывает номер телефона, fb_id страницы пользователя и его имя и фамилию. Остальные данные опциональны и могут отсутствовать.
Email указан у 0.2% пользователей. День рождения у 0.8% но у половины из них в этом поле только день/месяц без года. И только у 0.4% доступен полный день рождения.
Загадочным для меня остаётся какая-то метка времени, которая есть у всех записей, но у 40% из них она содержит 1 января 1 года нашей эры. У остальных она находится в диапазоне как на скрине. Это точно не дата создания страницы, я проверял по знакомым фейсбука. Принимаются ваши версии.
В целом хорошая база, пригодится. Ссылка на магнет - в комментах, полный вес утечки 15Гб, файла по России - 270Мб.
База данных хорошего качества, поля содержат то, что и должны, некорректных записей всего две. Статистику первичной оценки вы видите на верхнем скриншоте.
База связывает номер телефона, fb_id страницы пользователя и его имя и фамилию. Остальные данные опциональны и могут отсутствовать.
Email указан у 0.2% пользователей. День рождения у 0.8% но у половины из них в этом поле только день/месяц без года. И только у 0.4% доступен полный день рождения.
Загадочным для меня остаётся какая-то метка времени, которая есть у всех записей, но у 40% из них она содержит 1 января 1 года нашей эры. У остальных она находится в диапазоне как на скрине. Это точно не дата создания страницы, я проверял по знакомым фейсбука. Принимаются ваши версии.
В целом хорошая база, пригодится. Ссылка на магнет - в комментах, полный вес утечки 15Гб, файла по России - 270Мб.
Цифра дня: 1 656 158. Именно к стольким пользователям российского телеграм теперь удастся привязать страницы в фейсбук, что улучшит доступность реальных имён при деаноне (на фб большинство их использует). Это называется обогащение баз.
В ближайшее время Фома получит такой функционал при минорном обновлении до v 3.1.
Таблица получилась самой большой в проекте на данный момент, 1.6Гб вместе с индексами, но зато запрос по телефону занимает 28мс., а по fb_id 38мс. 😁
В ближайшее время Фома получит такой функционал при минорном обновлении до v 3.1.
Таблица получилась самой большой в проекте на данный момент, 1.6Гб вместе с индексами, но зато запрос по телефону занимает 28мс., а по fb_id 38мс. 😁
Кросс-чек корректности баз и расширение деанона на скрине.
Первые двое в телеграм под своими именами и подтверждают корректность данных, а на следующих хорошо видно, насколько утечка из фб улучшает картинку 😁
Оценка эффективности поиска на шести крупных чатах:
найдено профилей фб/телефонов/всего людей (%фб/%телефон)
@russianoppositionru
313/1804/9301 (3.4%/19.4%)
@siloviki_chat
158/968/4899 (3.2%/19.7%)
@ru2chnews
345/2302/9750 (3.5%/23.6%)
@ateo_chat
211/1198/5684 (3.7%/21.1%)
@sssr_narod
164/1012/5352 (3.1%/18.9%)
@ToBeOrChat
252/1273/5259 (4.8%/24.2%)
В среднем можно принять, что на сегодняшний день фейсбук обнаруживается для каждого тридцатого (3.3%), а телефон для каждого пятого (20%) пользователя телеграм.
Первые двое в телеграм под своими именами и подтверждают корректность данных, а на следующих хорошо видно, насколько утечка из фб улучшает картинку 😁
Оценка эффективности поиска на шести крупных чатах:
найдено профилей фб/телефонов/всего людей (%фб/%телефон)
@russianoppositionru
313/1804/9301 (3.4%/19.4%)
@siloviki_chat
158/968/4899 (3.2%/19.7%)
@ru2chnews
345/2302/9750 (3.5%/23.6%)
@ateo_chat
211/1198/5684 (3.7%/21.1%)
@sssr_narod
164/1012/5352 (3.1%/18.9%)
@ToBeOrChat
252/1273/5259 (4.8%/24.2%)
В среднем можно принять, что на сегодняшний день фейсбук обнаруживается для каждого тридцатого (3.3%), а телефон для каждого пятого (20%) пользователя телеграм.
Psycopg2 и миллионы insert.
Я давно подозревал, что cursor.executemany плохой путь для массовой вставки данных в таблицы, во всяком случае для постгрес. Но поскольку реальными миллионами строк мне надо оперировать раз в полгода, я валил все на "тупой питон".
Нет, тупой я и те кто пишет мануалы по питону. Оказывается, решение есть и оно в 35 раз (!) быстрее. Но надо было закопаться в глубину.
Встречайте, метод execute_values:
Массив данных для него делается такой же как для executemany (массив строк), но синтаксис отличается (смотрите на нижней картинке), курсор это параметр функции и values всегда одиночный %s.
Разница в быстродействии записи налицо (верхний слайд). Таблица на 10 млн строк копируется вместо невменяемых 8.5 часов - 15 минут. :)
Я давно подозревал, что cursor.executemany плохой путь для массовой вставки данных в таблицы, во всяком случае для постгрес. Но поскольку реальными миллионами строк мне надо оперировать раз в полгода, я валил все на "тупой питон".
Нет, тупой я и те кто пишет мануалы по питону. Оказывается, решение есть и оно в 35 раз (!) быстрее. Но надо было закопаться в глубину.
Встречайте, метод execute_values:
from psycopg2.extras import execute_values
Массив данных для него делается такой же как для executemany (массив строк), но синтаксис отличается (смотрите на нижней картинке), курсор это параметр функции и values всегда одиночный %s.
Разница в быстродействии записи налицо (верхний слайд). Таблица на 10 млн строк копируется вместо невменяемых 8.5 часов - 15 минут. :)
Об "утечке" из Clubhouse.
База аккуратная, дубликатов и битых записей нет. В оперативном смысле интереса не представляет, поскольку не содержит никакой чувствительной информации. Статистика на картинке.
Поля: User ID, Name, Photo URL, Username, Twitter account, Instagram account, Number of followers, Number of people followed by the user, Account creation date, Invited by user profile ID.
Единственное интересное, что можно с ней сделать - создать и визуализировать граф социальных взаимодействий по приглашениям. Граф почти цел и на 84% содержится в базе.
Формат файла - Sqlite3.
P. S. И да, уважаемые журналисты. Прекратите пожалуйста называть результаты примитивного сбора открытой информации в соцсетях "хакеры взломали", "масштабная утечка пользовательских данных" и прочими страшными словами :)
База аккуратная, дубликатов и битых записей нет. В оперативном смысле интереса не представляет, поскольку не содержит никакой чувствительной информации. Статистика на картинке.
Поля: User ID, Name, Photo URL, Username, Twitter account, Instagram account, Number of followers, Number of people followed by the user, Account creation date, Invited by user profile ID.
Единственное интересное, что можно с ней сделать - создать и визуализировать граф социальных взаимодействий по приглашениям. Граф почти цел и на 84% содержится в базе.
Формат файла - Sqlite3.
P. S. И да, уважаемые журналисты. Прекратите пожалуйста называть результаты примитивного сбора открытой информации в соцсетях "хакеры взломали", "масштабная утечка пользовательских данных" и прочими страшными словами :)
Прекрасный Эшу наконец-то взялся за свой канал. Тяжёлый энтерпрайз, scalability, вычисления реального времени и конечно же умучаные крысы (все живы, ну почти). Основной язык - c#. Рекомендую.
Telegram
Эшу быдлокодит
Палантир. Часть 1. Начинаю серию постов по изученным мной в процессе разработки сборщика данных с телеграма техническим нюансам.
#палантир@eshu_coding
Как уже было сказано, мной используется схема master - slave. Для связи между ними вместо традиционных…
#палантир@eshu_coding
Как уже было сказано, мной используется схема master - slave. Для связи между ними вместо традиционных…
Обнять и плакать. Начальник саратовского ФСИН пишет администраторам поискового телеграм-бота просьбу на официальном бланке, чтобы сэкономить 2*77 = 154 рубля в месяц 😂
Оригинал здесь
Оригинал здесь
Я обещал не писать про Навального до окончания цирка со сбором 500к подписей, но не могу пройти мимо.
У Лени утекла вся база email-ов подписавшихся. Вместе с временем регистрации и временем подтверждения почты. Поэтому сейчас будет пара постов.
Да, база настоящая. У меня есть данные наблюдения за сервером с 9 утра 24 марта по сейчас. В базе все регистрации с 22 марта по 2 апреля.
На картинках два графика: по данным моих наблюдений (верхний) и по почтовой базе после чистки её от явных ботов (нижний).
ТТХ базы:
529 570 адресов.
Подтвержденных 447 880.
14 301 адрес с 61 домена ботнетов.
370 грубых ботов мэйлрушечки, на которых жаловался Лёня.
Итого: 433 209 условно живых.
Почему условно? Потому что накручивали все, кому не лень и очень разными алгоритмами. Тонкие вычищать без логов сервера проблематично, а мелкие ручные накрутки - невозможно. Оценка близкая к реальности будет ~300к человек.
P. S. Базу и немного своего быдлокода положу в комментах.
P. P. S. Ни о каких "70% ботов" речь не идёт, это ложь.
У Лени утекла вся база email-ов подписавшихся. Вместе с временем регистрации и временем подтверждения почты. Поэтому сейчас будет пара постов.
Да, база настоящая. У меня есть данные наблюдения за сервером с 9 утра 24 марта по сейчас. В базе все регистрации с 22 марта по 2 апреля.
На картинках два графика: по данным моих наблюдений (верхний) и по почтовой базе после чистки её от явных ботов (нижний).
ТТХ базы:
529 570 адресов.
Подтвержденных 447 880.
14 301 адрес с 61 домена ботнетов.
370 грубых ботов мэйлрушечки, на которых жаловался Лёня.
Итого: 433 209 условно живых.
Почему условно? Потому что накручивали все, кому не лень и очень разными алгоритмами. Тонкие вычищать без логов сервера проблематично, а мелкие ручные накрутки - невозможно. Оценка близкая к реальности будет ~300к человек.
P. S. Базу и немного своего быдлокода положу в комментах.
P. P. S. Ни о каких "70% ботов" речь не идёт, это ложь.