СЛЕГ! <Z> ️
Ежедневный приток новых пользователей на карантине. Стабильно 1600 человек в сутки и более.
Прикрутил pandas для наглядности. Сегодня рекорд - всего 1100 человек. Народ явно узбагаивается.
/подвывая/ вы спрашивали, что такое задержка в умственном развитии? Не спрашивали? Но это она. Афтор канала @thisismyfacebook открывает для себя ортегу и кононенко. Весной 2020 года он увидел людей, которые не менялись последние лет 10 😂
И о выгрузке сообщений телеграм. Рано или поздно мы перейдём на эту дрянь :)
Телега никак не защищена от разграбления, скорость выгрузки 360 тысяч сообщений в час или 100 в секунду. То есть средний чат сливается за 20 минут, большой и старый, за пару часов.
Оптимальный по скорости вариант: запрос 1000 сообщений с паузой 3 секунды между ними. Дальше библиотека telethon все сделает сама, тройные пики на графике это выгрузка. А паузы нужной длинны проставляет телетон.
P.S. Постгрес это очень круто, mssql отдыхает :)
Телега никак не защищена от разграбления, скорость выгрузки 360 тысяч сообщений в час или 100 в секунду. То есть средний чат сливается за 20 минут, большой и старый, за пару часов.
Оптимальный по скорости вариант: запрос 1000 сообщений с паузой 3 секунды между ними. Дальше библиотека telethon все сделает сама, тройные пики на графике это выгрузка. А паузы нужной длинны проставляет телетон.
P.S. Постгрес это очень круто, mssql отдыхает :)
Но сохранять все подряд в неразобранном виде идея так себе. Для обучения парсера скачано 1,75М сообщений. Как видно на картинке, половина объёма это стикосы, гифки, и прочая дрянь. Получается 970 байт на среднее сообщение.
Поэтому рабочий вариант будет совсем другой.
Stay tuned :)
Поэтому рабочий вариант будет совсем другой.
Stay tuned :)
Эпической силы чтение получилось. Это окуклившийся сейчас чат "инвесторов", разорившихся в понедельник на нефти. Суть события в новостях. Рыночек порешал так, что самый счастливый должен брокеру 150к, самый несчастный под 10м рублей. Я его успел залить к себе и теперь выложу текстовую версию на память. Следующий пост ⬇️
invest.zip
393.6 KB
Архив чата инвесторов в текстовом формате. В несжатом виде 1,5Мб.
Когда подгребаешь уже остатки политоты (все основное собрано ещё в марте) получается смешное.
Первый проход скрипта по чату:
users - 578, dead - 179, bot - 2, phones - 4, written - 199, inchatwritten - 578
Новых пользователей только 199. Ещё 379 уже известны по другим чатам. 179 удалённых аккаунтов, 23% от общего числа. Да это же зомбиленд, Карл!
Первый проход скрипта по чату:
users - 578, dead - 179, bot - 2, phones - 4, written - 199, inchatwritten - 578
Новых пользователей только 199. Ещё 379 уже известны по другим чатам. 179 удалённых аккаунтов, 23% от общего числа. Да это же зомбиленд, Карл!
На днях переписал один из самых старых алгоритмов своих метрик. Ускорение в 280 раз. Оказалось, что сравнение строк в массивах в c++ стиле на питоне работает кое-как, а словари работают сверхбыстро. 🐍💙
P.s. В начале мая будут массивные обновления статистики, не переключайтесь
P.s. В начале мая будут массивные обновления статистики, не переключайтесь
К концу третьего месяца питоненья, я познал дзен asyncio и тут мне карта как поперла! © фантастически удобная обёртка для многопоточной обработки, без вникания в детали.
В применении к моим игрушкам, проект питух-детектор плавно превратился в волшебную палочку (админа чата), которой могут пользоваться все админы параллельно. Фейсконтроль на входе дополнился быстрыми и однобуквенными командами: кинуть мьют на время, отключить медиа, забанить, а так же получить справку на пользователя, если консерва вдруг подала голос. :)
P. S. Специально оставил развёрнутым диспетчер задач системы. Всего 17 строчек для определения всего поведения проекта. Обалденно.
В применении к моим игрушкам, проект питух-детектор плавно превратился в волшебную палочку (админа чата), которой могут пользоваться все админы параллельно. Фейсконтроль на входе дополнился быстрыми и однобуквенными командами: кинуть мьют на время, отключить медиа, забанить, а так же получить справку на пользователя, если консерва вдруг подала голос. :)
P. S. Специально оставил развёрнутым диспетчер задач системы. Всего 17 строчек для определения всего поведения проекта. Обалденно.
names0705.txt
11.6 KB
Подъехало большое статистическое исследование имен в телеграм.
На выборке в 200 тысяч ников определены все имена, имеющие частоту 5 и более. Всего 531 имя. Очевидный факт, что Россия это страна русских и для русских и все смехуечки про «государствообразующий народ» идут в пользу бедных, в основном умом.
Да, в процессе работы я узнал много нового про экзотику, например про легендарного осетина Хетага. Только людей с таким именем — 21 человек.
Итак:
Выборка — 200 619 ников
Имен — 531
Носителей имен — 139 993 человек
Некоторые короткие имена сохранены, в связи с неоднозначностью: Женя — Евгений/Евгения, Тим - Тимур/Тимофей. Многие редкие имена собраны в одно: Рамазан→Рамзан, Эльмира → Ильмира и так далее.
P.S. Топ 100 для ленивых в следующем посте ⬇️
На выборке в 200 тысяч ников определены все имена, имеющие частоту 5 и более. Всего 531 имя. Очевидный факт, что Россия это страна русских и для русских и все смехуечки про «государствообразующий народ» идут в пользу бедных, в основном умом.
Да, в процессе работы я узнал много нового про экзотику, например про легендарного осетина Хетага. Только людей с таким именем — 21 человек.
Итак:
Выборка — 200 619 ников
Имен — 531
Носителей имен — 139 993 человек
Некоторые короткие имена сохранены, в связи с неоднозначностью: Женя — Евгений/Евгения, Тим - Тимур/Тимофей. Многие редкие имена собраны в одно: Рамазан→Рамзан, Эльмира → Ильмира и так далее.
P.S. Топ 100 для ленивых в следующем посте ⬇️