СЛЕГ! <Z> ️
523 subscribers
678 photos
20 videos
12 files
307 links
Здесь создают авторских телеграм-ботов. Когда не справляются конструкторы и веб-студии - есть СЛЕГ.

Статистика ботов:
https://ssleg.tech/bots_view.html

Написать автору: @yesitsnew

TW: ещё тут политота, утечки баз и игры в товарища майора на минималках
加入频道
Крупнейшая утечка данных фейсбука пошла в народ и дошла до меня.

База данных хорошего качества, поля содержат то, что и должны, некорректных записей всего две. Статистику первичной оценки вы видите на верхнем скриншоте.

База связывает номер телефона, fb_id страницы пользователя и его имя и фамилию. Остальные данные опциональны и могут отсутствовать.

Email указан у 0.2% пользователей. День рождения у 0.8% но у половины из них в этом поле только день/месяц без года. И только у 0.4% доступен полный день рождения.

Загадочным для меня остаётся какая-то метка времени, которая есть у всех записей, но у 40% из них она содержит 1 января 1 года нашей эры. У остальных она находится в диапазоне как на скрине. Это точно не дата создания страницы, я проверял по знакомым фейсбука. Принимаются ваши версии.

В целом хорошая база, пригодится. Ссылка на магнет - в комментах, полный вес утечки 15Гб, файла по России - 270Мб.
Цифра дня: 1 656 158. Именно к стольким пользователям российского телеграм теперь удастся привязать страницы в фейсбук, что улучшит доступность реальных имён при деаноне (на фб большинство их использует). Это называется обогащение баз.

В ближайшее время Фома получит такой функционал при минорном обновлении до v 3.1.

Таблица получилась самой большой в проекте на данный момент, 1.6Гб вместе с индексами, но зато запрос по телефону занимает 28мс., а по fb_id 38мс. 😁
Кросс-чек корректности баз и расширение деанона на скрине.

Первые двое в телеграм под своими именами и подтверждают корректность данных, а на следующих хорошо видно, насколько утечка из фб улучшает картинку 😁

Оценка эффективности поиска на шести крупных чатах:
найдено профилей фб/телефонов/всего людей (%фб/%телефон)

@russianoppositionru
313/1804/9301 (3.4%/19.4%)

@siloviki_chat
158/968/4899 (3.2%/19.7%)

@ru2chnews
345/2302/9750 (3.5%/23.6%)

@ateo_chat
211/1198/5684 (3.7%/21.1%)

@sssr_narod
164/1012/5352 (3.1%/18.9%)

@ToBeOrChat
252/1273/5259 (4.8%/24.2%)

В среднем можно принять, что на сегодняшний день фейсбук обнаруживается для каждого тридцатого (3.3%), а телефон для каждого пятого (20%) пользователя телеграм.
Psycopg2 и миллионы insert.

Я давно подозревал, что cursor.executemany плохой путь для массовой вставки данных в таблицы, во всяком случае для постгрес. Но поскольку реальными миллионами строк мне надо оперировать раз в полгода, я валил все на "тупой питон".

Нет, тупой я и те кто пишет мануалы по питону. Оказывается, решение есть и оно в 35 раз (!) быстрее. Но надо было закопаться в глубину.

Встречайте, метод execute_values:

from psycopg2.extras import execute_values

Массив данных для него делается такой же как для executemany (массив строк), но синтаксис отличается (смотрите на нижней картинке), курсор это параметр функции и values всегда одиночный %s.

Разница в быстродействии записи налицо (верхний слайд). Таблица на 10 млн строк копируется вместо невменяемых 8.5 часов - 15 минут. :)
Об "утечке" из Clubhouse.

База аккуратная, дубликатов и битых записей нет. В оперативном смысле интереса не представляет, поскольку не содержит никакой чувствительной информации. Статистика на картинке.

Поля: User ID, Name, Photo URL, Username, Twitter account, Instagram account, Number of followers, Number of people followed by the user, Account creation date, Invited by user profile ID.

Единственное интересное, что можно с ней сделать - создать и визуализировать граф социальных взаимодействий по приглашениям. Граф почти цел и на 84% содержится в базе.

Формат файла - Sqlite3.

P. S. И да, уважаемые журналисты. Прекратите пожалуйста называть результаты примитивного сбора открытой информации в соцсетях "хакеры взломали", "масштабная утечка пользовательских данных" и прочими страшными словами :)
Обнять и плакать. Начальник саратовского ФСИН пишет администраторам поискового телеграм-бота просьбу на официальном бланке, чтобы сэкономить 2*77 = 154 рубля в месяц 😂

Оригинал здесь
Я обещал не писать про Навального до окончания цирка со сбором 500к подписей, но не могу пройти мимо.

У Лени утекла вся база email-ов подписавшихся. Вместе с временем регистрации и временем подтверждения почты. Поэтому сейчас будет пара постов.

Да, база настоящая. У меня есть данные наблюдения за сервером с 9 утра 24 марта по сейчас. В базе все регистрации с 22 марта по 2 апреля.

На картинках два графика: по данным моих наблюдений (верхний) и по почтовой базе после чистки её от явных ботов (нижний).

ТТХ базы:
529 570 адресов.
Подтвержденных 447 880.
14 301 адрес с 61 домена ботнетов.
370 грубых ботов мэйлрушечки, на которых жаловался Лёня.

Итого: 433 209 условно живых.

Почему условно? Потому что накручивали все, кому не лень и очень разными алгоритмами. Тонкие вычищать без логов сервера проблематично, а мелкие ручные накрутки - невозможно. Оценка близкая к реальности будет ~300к человек.

P. S. Базу и немного своего быдлокода положу в комментах.
P. P. S. Ни о каких "70% ботов" речь не идёт, это ложь.
Небольшой социальный срез по людям, подписывавшимся с рабочих почт. Места обитания сторонников.

ВШЭ - 26 человек.
Лентару, а как же без них - 70 человек.
ФБК, прям без палева. Федак это судя по всему их программист.
Российская экономическая школа - 12.

Немного внезапно - физтех, 59 человек.

И совсем смешное, болелы хоккеистов Спартака - 13.

P. S. А так же в базе содержится масса почтовых доменов из Белоруссии, Украины, Казахстана, Чехии, Германии и США. Но в сумме в них не более нескольких тысяч человек, уровень статпогрешности.

UPD: лентару все же общедоступный, а не рабочий домен, вычеркиваем.
Под давлением дружочков завёл себе гитхаб. Пока разбираюсь в настройках и правилах оформления.

Но мне все очень нравится. Связка PyCharm + GitHub это то что надо, чтобы навести порядок в своём говнокоде и поделиться им с миром.

Соответственно, в ближайшее время, как разберусь, туда переедет все, что выкладывалось в канале.

И выложу новое, которое сейчас проходит обкатку на проде. :)
Когда уже думаешь, что закопал стюардессу. ©

Сегодня выяснилось замечательное. Адреса редакции RT, которыми размахивают в телеге, были вкинуты в базу фбк за 4 минуты и ни один из них не был подтвержден.

Я, когда 16го разбирал базу по доменам, поставил фильтр на <10 адресов - отбрасываем, чтобы сократить потом ручной труд. И думал что адреса RT ушли под этот фильтр.

Но сегодня тема всплыла снова и я посмотрел уже конкретный домен.

Ребята, @rt_russian, это позор, если что. Оппонентов надо мочить красиво.
Ок. К вечеру выяснилось, что стюардессу не закопают ещё долго. Принимаю вызов и надеюсь на стойкость вас, мои читатели.

Пока я разбирался одной рукой с почтами rttv, второй рукой я давал комментарий журналистам RT.

К вечеру вышла новая статья, где я выступаю одним из экспертов.

Спасибо, теперь на RT прозвучало, что сторонники у Навального все же есть и их 300 тысяч. Да, это оценка сверху, оценку снизу сделать гораздо сложнее. Но пусть будет 200к. В этот разброс уложится реальный, математический график сбора без накруток.

Объявление для журналистов: я взрослый дядя, который давно дружит с, и ценит в реальности четвёртую власть. Поэтому с удовольствием даю комментарии и предоставляю данные всего на двух условиях:

Первое - мои слова приводятся только целиком. Если они не могут быть приведены, они не редактируются, а отменяются.

Второе - обязательное упоминание меня в качестве автора канала. Если это делается активной ссылкой, моя любовь к вам растёт по экспоненте.

Обращение к читателям: у канала нет цели, кроме как быть записной книжкой и дневником моего увлечения программированием. Поскольку я делюсь своими шишками, опытом и кодом, то мне нужны только живые и вовлеченные читатели. Если вам интересно, я рад. Когда вы используете мой код в своих проектах - счастлив.

Поэтому единственное что меня интересует, чтобы меня читало много людей, которым тоже здесь интересно. Спасибо за внимание.