Embodied AI Reading Club
470 subscribers
20 photos
41 links
Канал книжного клуба команды Embodied agents Лаборатории Cognitive AI Systems AIRI
加入频道
Всем привет!🔥

📆 В эту пятницу (29.08) в 17:00 Егор Черепанов расскажет про то

Как на самом деле тестировать память у RL-агентов

Сегодня в исследованиях RL почти каждая новая модель включает какой-то механизм памяти,  но насколько хорошо мы умеем проверять, действительно ли агент её использует?

Для обсуждения мы возьмём три свежих работы:
⚫️POBAX предлагает систематический набор задач, где частичная наблюдаемость делает память ключевым фактором. Эти задачи подобраны так, чтобы простое «увеличение модели» не помогало, и действительно требовалось хранить историю
⚫️Synthetic POMDPs идут ещё дальше: авторы формализуют понятие Memory Demand Structure и показывают, как синтетически конструировать среды с заранее известной «нагрузкой на память». Это позволяет строить тесты для конкретных гипотез
⚫️POPGym Arcade фокусируется на практической стороне: пиксельные среды с MDP/POMDP-близнецами, GPU-ускорение и уникальные инструменты для визуализации, какие именно наблюдения агент запомнил и как они влияют на будущее поведение

Обсудим, как такие инструменты можно использовать для выбора архитектуры, настройки агентов и выявления слабых мест памяти

Статьи:
1. Benchmarking Partial Observability in Reinforcement Learning with a Suite of Memory-Improvable Domains
2. Synthetic POMDPs to Challenge Memory-Augmented RL: Memory Demand Structure Modeling
3. POPGym Arcade: Parallel Pixelated POMDPs

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥93👎1🤮1💩1🥴1
Всем привет!🔥

📆 В эту пятницу (05.09) в 17:00 Алиса Петрова выступит с темой

Доверять, понимать, направлять: как механистические инструменты делают LLM надёжнее

Сегодня всё чаще возникает вопрос: можем ли мы не только измерять неопределённость ответов LLM, но и понимать, какие именно внутренние признаки отвечают за рассуждения — и как эти признаки можно использовать для более безопасного и точного управления моделью?

Для обсуждения возьмём три работы:
⚫️Shapley Uncertainty in Natural Language Generation — авторы предлагают использовать значения Шепли для оценки неопределённости текста: насколько конкретное слово или фраза вносит вклад в уверенность модели и когда лучше задать уточняющий вопрос.
⚫️CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection — показывают, что можно выбирать полезные латентные признаки через sparse autoencoders и использовать их для управления выводом модели, повышая качество и безопасность.
⚫️I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders — работа о том, как выявлять «признаки рассуждений» внутри LLM, визуализировать их и проверять, насколько они соответствуют человеческой логике.

Обсудим, как такие методы могут помочь строить более надёжные системы, где LLM не только генерирует ответ, но и объясняет, на чём именно он основан.

Статьи:
1. Shapley Uncertainty in Natural Language Generation
2. CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection
3. I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63