КАК РАБОТАЕТ АВТОМАТИКА КАНАЛА "COVID-19 AGGRE_GATE":
Очень часто люди представляют себе работу телеграм-канала так: ботанского вида дядька, с подглазинами от недосыпа, дни и ночи напролет сидит с кружкой пива и сигаретой во рту, читает тысячи заметок, чешет репу и поплевав в потолок, методом научного тыка разбрасывает их по разделам. Рядом с недопитой кружкой, на смятой кровати, видевшей последнюю женщину в былинные брежневские времена - валяется недопотрошенная вобла...🙃🤭
Разумеется все не так...🤣🤗
На самом деле, почти на 95% работа канала управляется автоматикой. Такие программы - помощники в Телеграмме называются ботами. Модерация 2х каналов в день занимает совсем немного времени, не более часа, да и то в редких случаях...
Каналом управляет целая система ботов, и сейчас я вас немного познакомлю с алгоритмом их работы:
1. Бот "Паук"
(1) парсит (в основном, через подключенные RSS-ленты) информацию с различных официальных новостных и ведомственных источников, официальных сми, медиа-агрегаторов, торрент-трекеров, youtube, агрегаторов препринтов (микроб, bio'r'xiv и др.), рабочих чатов.
(2) Семантический анализ
Паук отбирает не все заметки, а только те, где встречаются определенные (ключевые) слова, он также подсчитывает:
- частоту встречаемости ключевого слова в тексте заметки (параметр "вес"),
- частоту совместного упоминания ключевых слов (параметр "расстояние"),
Если в заметке используется система тегов или хэштегов, Паук использует ее, через специальную трансформационную таблицу
(3) Формирует базу заметок в виде непрерывной одноуровневой XML-ленты с параметрами "вес" и "расстояние",
(4) Проводит семантический анализ конкретной заметки относительно семантического ядра канала, присваивает данной заметке предполагаемые хэштеги.
Паук также следит чтобы на один хэштег не приходилось в совокупности более 30 заметок. Если их становится больше, Паук помечает все такие заметки служебным хэштегом "#РАЗДЕЛИТЬ?"
Новый хэштег может быть введен модератором вручную в служебном канале Чистилище (см. Пункт 2)
(5) Передает сформированную новостную ленту во вспомогательный телеграм-канал "Чистилище"
2. Чистилище
В этом канале все предварительно обработанные Пауком заметки модерируются в ручном режиме.
Единственная ручная работа во всей системе. Но и здесь работает бот - Архивариус.
Модератор просматривает ленту, подготовленную Пауком и оценивает правильность простановки хэштега. Примерно в 5% случаев бот ошибается, такие хэштеги корректируются вручную.
Новая информация сначала попадает в Новостную ленту, но по мере ее уточнения, постепенно переносится в соответствующие разделы, корректируется (например, вводятся новые хэштеги) или удаляется.
Что такое хэштег? Это гипертекстовая система, использующая для тематического поиска т.н. хэштеги - ссылки вида #ключевое_слово.
Нажав на хэштег, вы получите отсортированный по этому ключевому слову (хэштегу) список новостей. Хэштеги в канале соответствуют рубрикатору Главного меню, но есть также и уточняющие (тематические) хэштеги.
Поиск по хэштегам используется только в Новостной ленте, так задумано изначально.
Вся устояавшаяся и надежно установленная информация попадает в главные разделы (Главное меню) канала. Это невозможно полностью отдать на откуп машине, здесь нужно думать. Поэтому данную работу выполняет модератор канала. Модератор проставляет галочки (чекбоксы) в служебных свойствах заметки и нажатием кнопки "Публиковать" - запускает Бота Архивариуса.
Функции Бота Архивариус:
(1). Публикует заметку в новость, ориентируясь на служебные чекбоксы модератора. Например, он может опубликовать новость со сдвигом во времени на сутки (иногда требуется время, чтобы проверить ненадежную новость) и т.д.
(2) Пересчитывает и анализирует параметры семантического ядра канала (используется метод кластерного анализа "Решетки Келли").
Например, если количество новостей в сутки (параметр "мощность новостного потока") каком-то разделе не растет, а в другом - растет очень быстро, это может означать, что актуальность какого то раздела уже упала, а другого - наоборот, возрастает.
Очень часто люди представляют себе работу телеграм-канала так: ботанского вида дядька, с подглазинами от недосыпа, дни и ночи напролет сидит с кружкой пива и сигаретой во рту, читает тысячи заметок, чешет репу и поплевав в потолок, методом научного тыка разбрасывает их по разделам. Рядом с недопитой кружкой, на смятой кровати, видевшей последнюю женщину в былинные брежневские времена - валяется недопотрошенная вобла...🙃🤭
Разумеется все не так...🤣🤗
На самом деле, почти на 95% работа канала управляется автоматикой. Такие программы - помощники в Телеграмме называются ботами. Модерация 2х каналов в день занимает совсем немного времени, не более часа, да и то в редких случаях...
Каналом управляет целая система ботов, и сейчас я вас немного познакомлю с алгоритмом их работы:
1. Бот "Паук"
(1) парсит (в основном, через подключенные RSS-ленты) информацию с различных официальных новостных и ведомственных источников, официальных сми, медиа-агрегаторов, торрент-трекеров, youtube, агрегаторов препринтов (микроб, bio'r'xiv и др.), рабочих чатов.
(2) Семантический анализ
Паук отбирает не все заметки, а только те, где встречаются определенные (ключевые) слова, он также подсчитывает:
- частоту встречаемости ключевого слова в тексте заметки (параметр "вес"),
- частоту совместного упоминания ключевых слов (параметр "расстояние"),
Если в заметке используется система тегов или хэштегов, Паук использует ее, через специальную трансформационную таблицу
(3) Формирует базу заметок в виде непрерывной одноуровневой XML-ленты с параметрами "вес" и "расстояние",
(4) Проводит семантический анализ конкретной заметки относительно семантического ядра канала, присваивает данной заметке предполагаемые хэштеги.
Паук также следит чтобы на один хэштег не приходилось в совокупности более 30 заметок. Если их становится больше, Паук помечает все такие заметки служебным хэштегом "#РАЗДЕЛИТЬ?"
Новый хэштег может быть введен модератором вручную в служебном канале Чистилище (см. Пункт 2)
(5) Передает сформированную новостную ленту во вспомогательный телеграм-канал "Чистилище"
2. Чистилище
В этом канале все предварительно обработанные Пауком заметки модерируются в ручном режиме.
Единственная ручная работа во всей системе. Но и здесь работает бот - Архивариус.
Модератор просматривает ленту, подготовленную Пауком и оценивает правильность простановки хэштега. Примерно в 5% случаев бот ошибается, такие хэштеги корректируются вручную.
Новая информация сначала попадает в Новостную ленту, но по мере ее уточнения, постепенно переносится в соответствующие разделы, корректируется (например, вводятся новые хэштеги) или удаляется.
Что такое хэштег? Это гипертекстовая система, использующая для тематического поиска т.н. хэштеги - ссылки вида #ключевое_слово.
Нажав на хэштег, вы получите отсортированный по этому ключевому слову (хэштегу) список новостей. Хэштеги в канале соответствуют рубрикатору Главного меню, но есть также и уточняющие (тематические) хэштеги.
Поиск по хэштегам используется только в Новостной ленте, так задумано изначально.
Вся устояавшаяся и надежно установленная информация попадает в главные разделы (Главное меню) канала. Это невозможно полностью отдать на откуп машине, здесь нужно думать. Поэтому данную работу выполняет модератор канала. Модератор проставляет галочки (чекбоксы) в служебных свойствах заметки и нажатием кнопки "Публиковать" - запускает Бота Архивариуса.
Функции Бота Архивариус:
(1). Публикует заметку в новость, ориентируясь на служебные чекбоксы модератора. Например, он может опубликовать новость со сдвигом во времени на сутки (иногда требуется время, чтобы проверить ненадежную новость) и т.д.
(2) Пересчитывает и анализирует параметры семантического ядра канала (используется метод кластерного анализа "Решетки Келли").
Например, если количество новостей в сутки (параметр "мощность новостного потока") каком-то разделе не растет, а в другом - растет очень быстро, это может означать, что актуальность какого то раздела уже упала, а другого - наоборот, возрастает.
April 16, 2021