Всем привет!🔥
📆 Сегодня (8 августа) в 17:00 Даниил Казачков расскажет про то
Как ускорить мультимодальные модели без потери качества (эффективное сокращение визуальных токенов)
Современные мультимодальные модели способны хорошо обрабатывать тексты, изображения и видео. Но за эту универсальность приходится платить: за счет большего числа токенов от фото-видео данных, растет необходимость в больших вычислительных ресурсах, падает скорость инференса. Можно ли уменьшить количество визуальных токенов, не жертвуя точностью?
В докладе разберём ключевые подходы к сжатию визуальной информации в LLM-пайплайне: от удаления малозначимых токенов до их кластеризации и отбора максимально разнообразного подмножества. Обсудим, как решается задача отбора токенов без обучения и почему классические метрики важности не работают в эгоцентричных видео. Покажем, как архитектуры вроде PACT, EgoPrune, DivPrune и HiPrune делают визуально-языковые модели быстрее и легче, сохраняя при этом высокую точность на десятках датасетов
Статьи:
1. DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models
2. PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models
3. EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent
4. HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Как ускорить мультимодальные модели без потери качества (эффективное сокращение визуальных токенов)
Современные мультимодальные модели способны хорошо обрабатывать тексты, изображения и видео. Но за эту универсальность приходится платить: за счет большего числа токенов от фото-видео данных, растет необходимость в больших вычислительных ресурсах, падает скорость инференса. Можно ли уменьшить количество визуальных токенов, не жертвуя точностью?
В докладе разберём ключевые подходы к сжатию визуальной информации в LLM-пайплайне: от удаления малозначимых токенов до их кластеризации и отбора максимально разнообразного подмножества. Обсудим, как решается задача отбора токенов без обучения и почему классические метрики важности не работают в эгоцентричных видео. Покажем, как архитектуры вроде PACT, EgoPrune, DivPrune и HiPrune делают визуально-языковые модели быстрее и легче, сохраняя при этом высокую точность на десятках датасетов
Статьи:
1. DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models
2. PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models
3. EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent
4. HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤1
Всем привет!🔥
📆 В эту пятницу (29.08) в 17:00 Егор Черепанов расскажет про то
Как на самом деле тестировать память у RL-агентов
Сегодня в исследованиях RL почти каждая новая модель включает какой-то механизм памяти, но насколько хорошо мы умеем проверять, действительно ли агент её использует?
Для обсуждения мы возьмём три свежих работы:
⚫️ POBAX предлагает систематический набор задач, где частичная наблюдаемость делает память ключевым фактором. Эти задачи подобраны так, чтобы простое «увеличение модели» не помогало, и действительно требовалось хранить историю
⚫️ Synthetic POMDPs идут ещё дальше: авторы формализуют понятие Memory Demand Structure и показывают, как синтетически конструировать среды с заранее известной «нагрузкой на память». Это позволяет строить тесты для конкретных гипотез
⚫️ POPGym Arcade фокусируется на практической стороне: пиксельные среды с MDP/POMDP-близнецами, GPU-ускорение и уникальные инструменты для визуализации, какие именно наблюдения агент запомнил и как они влияют на будущее поведение
Обсудим, как такие инструменты можно использовать для выбора архитектуры, настройки агентов и выявления слабых мест памяти
Статьи:
1. Benchmarking Partial Observability in Reinforcement Learning with a Suite of Memory-Improvable Domains
2. Synthetic POMDPs to Challenge Memory-Augmented RL: Memory Demand Structure Modeling
3. POPGym Arcade: Parallel Pixelated POMDPs
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Как на самом деле тестировать память у RL-агентов
Сегодня в исследованиях RL почти каждая новая модель включает какой-то механизм памяти, но насколько хорошо мы умеем проверять, действительно ли агент её использует?
Для обсуждения мы возьмём три свежих работы:
Обсудим, как такие инструменты можно использовать для выбора архитектуры, настройки агентов и выявления слабых мест памяти
Статьи:
1. Benchmarking Partial Observability in Reinforcement Learning with a Suite of Memory-Improvable Domains
2. Synthetic POMDPs to Challenge Memory-Augmented RL: Memory Demand Structure Modeling
3. POPGym Arcade: Parallel Pixelated POMDPs
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤3👎1🤮1💩1🥴1
Всем привет!🔥
📆 В эту пятницу (05.09) в 17:00 Алиса Петрова выступит с темой
Доверять, понимать, направлять: как механистические инструменты делают LLM надёжнее
Сегодня всё чаще возникает вопрос: можем ли мы не только измерять неопределённость ответов LLM, но и понимать, какие именно внутренние признаки отвечают за рассуждения — и как эти признаки можно использовать для более безопасного и точного управления моделью?
Для обсуждения возьмём три работы:
⚫️ Shapley Uncertainty in Natural Language Generation — авторы предлагают использовать значения Шепли для оценки неопределённости текста: насколько конкретное слово или фраза вносит вклад в уверенность модели и когда лучше задать уточняющий вопрос.
⚫️ CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection — показывают, что можно выбирать полезные латентные признаки через sparse autoencoders и использовать их для управления выводом модели, повышая качество и безопасность.
⚫️ I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders — работа о том, как выявлять «признаки рассуждений» внутри LLM, визуализировать их и проверять, насколько они соответствуют человеческой логике.
Обсудим, как такие методы могут помочь строить более надёжные системы, где LLM не только генерирует ответ, но и объясняет, на чём именно он основан.
Статьи:
1. Shapley Uncertainty in Natural Language Generation
2. CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection
3. I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Доверять, понимать, направлять: как механистические инструменты делают LLM надёжнее
Сегодня всё чаще возникает вопрос: можем ли мы не только измерять неопределённость ответов LLM, но и понимать, какие именно внутренние признаки отвечают за рассуждения — и как эти признаки можно использовать для более безопасного и точного управления моделью?
Для обсуждения возьмём три работы:
Обсудим, как такие методы могут помочь строить более надёжные системы, где LLM не только генерирует ответ, но и объясняет, на чём именно он основан.
Статьи:
1. Shapley Uncertainty in Natural Language Generation
2. CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection
3. I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤3