[English version]
Ещё раз хотим напомнмть, что конкретно мы оцениваем. Также напоминаем, что наши оценки основаны на данных из открытых источников и являются не истиной в последней инстанции, а всего лишь гипотезой (предположением), сделанным на основе вполне конкретной методики. Конструктивно с нами спорить очень просто: вместо верю/не верю всего лишь предложите другую модель, опишите, чем она лучше, и пришлите ссылку в @wartearsbot
Ещё раз хотим напомнмть, что конкретно мы оцениваем. Также напоминаем, что наши оценки основаны на данных из открытых источников и являются не истиной в последней инстанции, а всего лишь гипотезой (предположением), сделанным на основе вполне конкретной методики. Конструктивно с нами спорить очень просто: вместо верю/не верю всего лишь предложите другую модель, опишите, чем она лучше, и пришлите ссылку в @wartearsbot
Мы как-то рассказывали о том, что мы - вертикальный поиск. Как и в любом поисковом сервисе перед нами стоит задача "дедуплицировать" данные, приходящие из разных источников - именно так мы собираем информацию, и именно так мы находим данные о пропавших людях - вручную "дедуплицируя" заявки от родственников и другую собираемую информацию.
Самая сложная задача при автоматизации дедупликации - описать критерии для того, чтобы различить: об одном и том же человеке идёт речь, или о разных. Позавчера сделали первый запуск автоматизации, и вот результат:
▪️Свели информацию о 7426 людях, убрав 12701 дубликатов записей (примерно 7% из нашей базы).
▪️Нашли 110 пленных и 89 погибших, о которых нас спрашивали родственники - и эту информацию до них донесём в самое ближайшее время.
Естественно, после удаления дубликатов, наши оценки существенно скакнули. Однако мы не просто так взялись за эту тему - мы готовимся к принятию большого числа новых данных. Как примем - расскажем.
Самая сложная задача при автоматизации дедупликации - описать критерии для того, чтобы различить: об одном и том же человеке идёт речь, или о разных. Позавчера сделали первый запуск автоматизации, и вот результат:
▪️Свели информацию о 7426 людях, убрав 12701 дубликатов записей (примерно 7% из нашей базы).
▪️Нашли 110 пленных и 89 погибших, о которых нас спрашивали родственники - и эту информацию до них донесём в самое ближайшее время.
Естественно, после удаления дубликатов, наши оценки существенно скакнули. Однако мы не просто так взялись за эту тему - мы готовимся к принятию большого числа новых данных. Как примем - расскажем.
На этой неделе инфографики с оценками не будет: с одной стороны, мы убрали (объединили) большое количество дублированных записей, с другой - начали вносить большое число данных из нового источника. Поэтому изменения в оценках относительно прошлой недели малоосмысленны. Да, это слабое место матмодели, мы в курсе. Возобновим публикацию оценок как только обработаем все новые данные.
No estimations this week: we removed (well, merged) a great load of duplicated records, and, moreover, started incorporating a large amount of data from the new source. So changes in the estimations are meaningless. Yup, the great technical fault of our model it is. We will resume publication of our estimations as soon as we process all the new data.
No estimations this week: we removed (well, merged) a great load of duplicated records, and, moreover, started incorporating a large amount of data from the new source. So changes in the estimations are meaningless. Yup, the great technical fault of our model it is. We will resume publication of our estimations as soon as we process all the new data.
[English version]
Комментарий: Как вы могли заметить, наши оценки в результате двухнедельной работы - минус 13 тыс. дубликатов, плюс первые 2 тыс. записей о погибших из нового источника - дали снижение оценки числа активных бойцов ВФУ примерно на 100 тыс., и снижение оценки числа пленных примерно на 600 человек. Оценка числа погибших эффективно не поменялась.
Комментарий: Как вы могли заметить, наши оценки в результате двухнедельной работы - минус 13 тыс. дубликатов, плюс первые 2 тыс. записей о погибших из нового источника - дали снижение оценки числа активных бойцов ВФУ примерно на 100 тыс., и снижение оценки числа пленных примерно на 600 человек. Оценка числа погибших эффективно не поменялась.
В этот пятничный вечер мы хотим чуток отвлечься от мучительного скрещивания асинхронного с синхронным (не вспоминайте asgiref - не работает в нашем случае) и напишем о теореме Гёделя и том, как она связана с погибшим сержантом из 95 ОДШБр.
Итак мы, как и любой поисковый сервис, собираем информацию из разных источников. Увидели имя в списках погибших, а потом такое же - в наградных списках Офиса Президента Украины, например. Дальше встаёт вопрос: об одном это человеке информация или о разных?
Три года назад проблему идентификации людей прокомментировала и.о. руководителя УФССП по Амурской области Светлана Засядько: «На сегодняшний день в рамках исполнительного производства мы можем идентифицировать должника только по двум установочным данным — фамилии, имени, отчеству и дате рождения. Зачастую данных не хватает для того, чтобы идентифицировать должника в рамках исполнительного производства по той причине, что эти сведения совпадают». Конечно, это не мы брали комментарий, и не про нас, но задача ровно та же - определить, это один и тот же человек или два разных.
Когда речь о следствии и суде - нужно детально проверять каждый случай вручную. Однако, у нас-то ресурсов проверить всё просто нет. Поэтому пришлось делать автоматизацию.
Автоматизация - это алгоритм, который показывает, об одном ли человеке речь. Алгоритм вышел несложным: мы проверяем ФИО, год рождения и ряд других атрибутов. Если есть достаточно совпадений и нет противоречий - считаем, что речь об одном лице.
Ошибиться можно в две стороны:
▪️сказать, что человек один, когда это не так,
▪️сказать что люди разные, когда человек один и тот же.
Для наших задач важно исключить первый случай, а второй можно и вручную обработать при необходимости.
Но при чём тут теоремы Гёделя (да-да, их две)? С пыхтением натягивая сову на глобус, скажем, что даже чисто теоретически нельзя создать алгоритм, который будет выдавать верный результат в 100% случаев.
Результаты ДНК-теста бойцов ВФУ скажете вы? Мы ответим: биолаборатории и клонирование. Поэтому пришлось делать алгоритм, который говорит "один человек" про пару разных людей менее чем в 5% случаев.
Но как это всегда бывает, при внутреннем тестировании мы быстро наткнулись на эти самые <5%: Григоренко Евгений Сергеевич. В одном источнике боец назван сержантом 95 ОДШБр, а в другом - сотрудником СВР. Полное ФИО и год рождения совпадали. В результате без серъёзного дополнительного расследования мы не можем сказать - это был полевой агент СВР под прикрытием или два разных человека? И именно это и есть пример той самой невыводимой формулы из теорем Гёделя.
Итак мы, как и любой поисковый сервис, собираем информацию из разных источников. Увидели имя в списках погибших, а потом такое же - в наградных списках Офиса Президента Украины, например. Дальше встаёт вопрос: об одном это человеке информация или о разных?
Три года назад проблему идентификации людей прокомментировала и.о. руководителя УФССП по Амурской области Светлана Засядько: «На сегодняшний день в рамках исполнительного производства мы можем идентифицировать должника только по двум установочным данным — фамилии, имени, отчеству и дате рождения. Зачастую данных не хватает для того, чтобы идентифицировать должника в рамках исполнительного производства по той причине, что эти сведения совпадают». Конечно, это не мы брали комментарий, и не про нас, но задача ровно та же - определить, это один и тот же человек или два разных.
Когда речь о следствии и суде - нужно детально проверять каждый случай вручную. Однако, у нас-то ресурсов проверить всё просто нет. Поэтому пришлось делать автоматизацию.
Автоматизация - это алгоритм, который показывает, об одном ли человеке речь. Алгоритм вышел несложным: мы проверяем ФИО, год рождения и ряд других атрибутов. Если есть достаточно совпадений и нет противоречий - считаем, что речь об одном лице.
Ошибиться можно в две стороны:
▪️сказать, что человек один, когда это не так,
▪️сказать что люди разные, когда человек один и тот же.
Для наших задач важно исключить первый случай, а второй можно и вручную обработать при необходимости.
Но при чём тут теоремы Гёделя (да-да, их две)? С пыхтением натягивая сову на глобус, скажем, что даже чисто теоретически нельзя создать алгоритм, который будет выдавать верный результат в 100% случаев.
Результаты ДНК-теста бойцов ВФУ скажете вы? Мы ответим: биолаборатории и клонирование. Поэтому пришлось делать алгоритм, который говорит "один человек" про пару разных людей менее чем в 5% случаев.
Но как это всегда бывает, при внутреннем тестировании мы быстро наткнулись на эти самые <5%: Григоренко Евгений Сергеевич. В одном источнике боец назван сержантом 95 ОДШБр, а в другом - сотрудником СВР. Полное ФИО и год рождения совпадали. В результате без серъёзного дополнительного расследования мы не можем сказать - это был полевой агент СВР под прикрытием или два разных человека? И именно это и есть пример той самой невыводимой формулы из теорем Гёделя.
С неделю назад мы немного пошутили про twisted и синхронный клиент MySQL. Теперь же хотим попросить помощи всерьёз.
Есть такая библиотека - stanza - для работы с естественными языками от Стэнфордского университета. Для нас самой интересной частью является так называемое распознавание именованных сущностей (Named Entity Recognition - NER).
Для тех, кто не знает: это код, который в произвольном тексте на русском/украинском/английском/любом другом поддерживаемом языке помечает имена людей, названия организаций, даты, географические названия и прочее, основываясь в основном на структуре самого языка.
Например из предложения “Этим летом Вася ездил из Самары в Нижний” NER вытащит (Вася, имя), (Самары, место), (Нижний, место). Эту возможность мы, как поисковый сервис, постоянно используем для анализа сырых данных, собранных из различных источников.
Каждая разновидность именованных сущностей - имён людей, названий организаций… - в рамках stanza требует предварительного обучения отдельной модели. В stanza по умолчанию есть много чего полезного, но вот моделей для военных частей как-то не завезли.
Собственно задача, которая стоит перед нами уже не первый месяц, - подготовить новую модель stanza, которая бы могла вытаскивать из текста упоминания военных частей. Как готовить модели - описано в документации. Открытые данные на нашем сайте должны содержать достаточный корпус текстов, а имена записей с разновидностью “организация” на 95% содержат названия в/ч.
В качестве решения хотелось бы получить модель stanza для распознавания в/ч и скрипт для повторной тренировки (можно jupyter notebook). Языки - русский и украинский. В идеале нужна возможность при повторной тренировке модели максимизировать recall при заданном precision. Сам код примем под свободной (MIT или Apache совместимой) лицензией из любого источника.
Мы независимый проект, не собираем донаты и не планируем их собирать. Но вот такая помощь нам очень пригодится. Решения принимаются в бот обратной связи @wartearsbot.
Есть такая библиотека - stanza - для работы с естественными языками от Стэнфордского университета. Для нас самой интересной частью является так называемое распознавание именованных сущностей (Named Entity Recognition - NER).
Для тех, кто не знает: это код, который в произвольном тексте на русском/украинском/английском/любом другом поддерживаемом языке помечает имена людей, названия организаций, даты, географические названия и прочее, основываясь в основном на структуре самого языка.
Например из предложения “Этим летом Вася ездил из Самары в Нижний” NER вытащит (Вася, имя), (Самары, место), (Нижний, место). Эту возможность мы, как поисковый сервис, постоянно используем для анализа сырых данных, собранных из различных источников.
Каждая разновидность именованных сущностей - имён людей, названий организаций… - в рамках stanza требует предварительного обучения отдельной модели. В stanza по умолчанию есть много чего полезного, но вот моделей для военных частей как-то не завезли.
Собственно задача, которая стоит перед нами уже не первый месяц, - подготовить новую модель stanza, которая бы могла вытаскивать из текста упоминания военных частей. Как готовить модели - описано в документации. Открытые данные на нашем сайте должны содержать достаточный корпус текстов, а имена записей с разновидностью “организация” на 95% содержат названия в/ч.
В качестве решения хотелось бы получить модель stanza для распознавания в/ч и скрипт для повторной тренировки (можно jupyter notebook). Языки - русский и украинский. В идеале нужна возможность при повторной тренировке модели максимизировать recall при заданном precision. Сам код примем под свободной (MIT или Apache совместимой) лицензией из любого источника.
Мы независимый проект, не собираем донаты и не планируем их собирать. Но вот такая помощь нам очень пригодится. Решения принимаются в бот обратной связи @wartearsbot.
Сегодня, 29 октября 2023, число погибших бойцов ВФУ, согласно оценкам на основе нашей мат. модели превысило 300 000 человек.
Напоминаем:
▪️Оценка 200 000 погибших была пройдена 18 февраля 2023 г.,
▪️Оценка 100 000 – 24 октября 2022 г.
Напоминаем:
▪️Оценка 200 000 погибших была пройдена 18 февраля 2023 г.,
▪️Оценка 100 000 – 24 октября 2022 г.
Today, October 29, 2023, the number of dead AFU members, according to our math. model exceeded 300,000 people.
We'd like to remind you:
▪️200,000 dead mark was hit on February 18, 2023,
▪️100,000 – on October 24, 2022.
We'd like to remind you:
▪️200,000 dead mark was hit on February 18, 2023,
▪️100,000 – on October 24, 2022.
Алексей Ракша на Огарковских чтениях показал статистику по демографии ВФУ и не только. Сами не присутствовали, но Рабинович напел пересказали и дали конспект знакомые.
Сравнили с нашими данными:
▪️По нашим оценкам 300 тыс. только погибших – общие безвозвратные потери конечно же выше.
Средний возраст:
▪️погибших 38,1±9,9 лет (данные по 11054 записям), медиана 38 лет;
▪️пленных 34,9±10,1 лет (3960 записей), медиана 33 года;
▪️всех бойцов ВФУ– 37.1±9.1 лет (62981 записей), медиана 35 лет.
На картинке - относительное распределения по возрастам погибших (KIA), пленных (CIA) и всех бойцов (Total). Видно, что в плен сдаются более молодые (до 30 лет), тогда как более старые (старше 40) скорее погибают. Также видно, что наиболее эффективными бойцами являются люди в возрасте от 27 до 37 лет, которые существенно меньше, чем остальные, погибают или сдаются в плен.
Исходные данные:
▪️Наши открытые данные
▪️Гистограмма по возрастам (на основе открытых данных выше).
Сравнили с нашими данными:
▪️По нашим оценкам 300 тыс. только погибших – общие безвозвратные потери конечно же выше.
Средний возраст:
▪️погибших 38,1±9,9 лет (данные по 11054 записям), медиана 38 лет;
▪️пленных 34,9±10,1 лет (3960 записей), медиана 33 года;
▪️всех бойцов ВФУ– 37.1±9.1 лет (62981 записей), медиана 35 лет.
На картинке - относительное распределения по возрастам погибших (KIA), пленных (CIA) и всех бойцов (Total). Видно, что в плен сдаются более молодые (до 30 лет), тогда как более старые (старше 40) скорее погибают. Также видно, что наиболее эффективными бойцами являются люди в возрасте от 27 до 37 лет, которые существенно меньше, чем остальные, погибают или сдаются в плен.
Исходные данные:
▪️Наши открытые данные
▪️Гистограмма по возрастам (на основе открытых данных выше).
Хотим отметить один факт: за всё время с момента публикации третьей версии нашей мат. модели - с марта 2023 - оценка активной численности ВФУ - то есть всех тех, кто регулярно участвует в боевых действиях - так и остаётся 400±50 тыс. человек.
Если предположить, что руководство ВФУ действительно желает победы, то вывод у нас получается один: мобилизационный потенциал действительно не является бутылочным горлышком и недостатка в нём не наблюдается. Ограничением же численности и мощи ВФУ следовательно выступают другие факторы.
При этом мы никак не наблюдаем корреляции между общей численностью - вообще всеми, живыми или мёртвыми, бойцами ВФУ - и динамикой помощи от США и ко.
Получаем вывод: похоже, что фактором, ограничивающим численность ВФУ является скорость мобилизации и/или подготовки л/с - на это может указывать стабильный рост оценки общей численности ВФУ.
Других вариантов объяснения графиков мы не придумали.
Если предположить, что руководство ВФУ действительно желает победы, то вывод у нас получается один: мобилизационный потенциал действительно не является бутылочным горлышком и недостатка в нём не наблюдается. Ограничением же численности и мощи ВФУ следовательно выступают другие факторы.
При этом мы никак не наблюдаем корреляции между общей численностью - вообще всеми, живыми или мёртвыми, бойцами ВФУ - и динамикой помощи от США и ко.
Получаем вывод: похоже, что фактором, ограничивающим численность ВФУ является скорость мобилизации и/или подготовки л/с - на это может указывать стабильный рост оценки общей численности ВФУ.
Других вариантов объяснения графиков мы не придумали.