Embodied AI Reading Club

Всем привет!

🔥

📆

Сегодня (8 августа) в 17:00 Даниил Казачков расскажет про то

Как ускорить мультимодальные модели без потери качества (эффективное сокращение визуальных токенов)

Современные мультимодальные модели способны хорошо обрабатывать тексты, изображения и видео. Но за эту универсальность приходится платить: за счет большего числа токенов от фото-видео данных, растет необходимость в больших вычислительных ресурсах, падает скорость инференса. Можно ли уменьшить количество визуальных токенов, не жертвуя точностью?

В докладе разберём ключевые подходы к сжатию визуальной информации в LLM-пайплайне: от удаления малозначимых токенов до их кластеризации и отбора максимально разнообразного подмножества. Обсудим, как решается задача отбора токенов без обучения и почему классические метрики важности не работают в эгоцентричных видео. Покажем, как архитектуры вроде PACT, EgoPrune, DivPrune и HiPrune делают визуально-языковые модели быстрее и легче, сохраняя при этом высокую точность на десятках датасетов

Статьи:
1. DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models
2. PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models
3. EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent
4. HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models

🍿

Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤1

1.07K views09:36

Embodied AI Reading Club

Всем привет!

🔥

📆

В эту пятницу (29.08) в 17:00 Егор Черепанов расскажет про то

Как на самом деле тестировать память у RL-агентов

Сегодня в исследованиях RL почти каждая новая модель включает какой-то механизм памяти, но насколько хорошо мы умеем проверять, действительно ли агент её использует?

Для обсуждения мы возьмём три свежих работы:

⚫️

POBAX предлагает систематический набор задач, где частичная наблюдаемость делает память ключевым фактором. Эти задачи подобраны так, чтобы простое «увеличение модели» не помогало, и действительно требовалось хранить историю

⚫️

Synthetic POMDPs идут ещё дальше: авторы формализуют понятие Memory Demand Structure и показывают, как синтетически конструировать среды с заранее известной «нагрузкой на память». Это позволяет строить тесты для конкретных гипотез

⚫️

POPGym Arcade фокусируется на практической стороне: пиксельные среды с MDP/POMDP-близнецами, GPU-ускорение и уникальные инструменты для визуализации, какие именно наблюдения агент запомнил и как они влияют на будущее поведение

Обсудим, как такие инструменты можно использовать для выбора архитектуры, настройки агентов и выявления слабых мест памяти

Статьи:
1. Benchmarking Partial Observability in Reinforcement Learning with a Suite of Memory-Improvable Domains
2. Synthetic POMDPs to Challenge Memory-Augmented RL: Memory Demand Structure Modeling
3. POPGym Arcade: Parallel Pixelated POMDPs

🍿

Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤3👎1🤮1💩1🥴1

605 views13:24

Embodied AI Reading Club

Всем привет!

🔥

📆

В эту пятницу (05.09) в 17:00 Алиса Петрова выступит с темой

Доверять, понимать, направлять: как механистические инструменты делают LLM надёжнее

Сегодня всё чаще возникает вопрос: можем ли мы не только измерять неопределённость ответов LLM, но и понимать, какие именно внутренние признаки отвечают за рассуждения — и как эти признаки можно использовать для более безопасного и точного управления моделью?

Для обсуждения возьмём три работы:

⚫️

Shapley Uncertainty in Natural Language Generation — авторы предлагают использовать значения Шепли для оценки неопределённости текста: насколько конкретное слово или фраза вносит вклад в уверенность модели и когда лучше задать уточняющий вопрос.

⚫️

CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection — показывают, что можно выбирать полезные латентные признаки через sparse autoencoders и использовать их для управления выводом модели, повышая качество и безопасность.

⚫️

I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders — работа о том, как выявлять «признаки рассуждений» внутри LLM, визуализировать их и проверять, насколько они соответствуют человеческой логике.

Обсудим, как такие методы могут помочь строить более надёжные системы, где LLM не только генерирует ответ, но и объясняет, на чём именно он основан.

Статьи:
1. Shapley Uncertainty in Natural Language Generation
2. CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection
3. I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders

🍿

Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤3

356 views16:52

About

Blog

Apps

Platform