BaseLine
477 subscribers
212 photos
19 videos
1 file
156 links
Канал Алексей Ковалёва – PhD, тимлид команды Embodied agents в AIRI, доцент ЦКМ МФТИ. Занимаюсь Embodied AI 🤖, LLM Planning, RL

Моё хобби – читать научпоп лекции по ИИ

Здесь делюсь событиями, мыслями, новостями
加入频道
Forwarded from Институт AIRI
Открыт прием заявок на Лето с AIRI!⚡️

В этом году мы запускаем Школу совместно с Передовой Инженерной Школой ИТМО. Программа пройдет в Санкт-Петербурге с 20 по 30 августа.

🗓 Подать заявку можно по ссылке до 23:59 14 июля 2024 года.

Школа включает в себя лекции, семинары и практическую работу по направлениям:

— Мультимодальные архитектуры и генеративный ИИ в промышленности
— Модели воплощенного ИИ и обучение с подкреплением в робототехнике
— Искусственный интеллект и химия
— Доверенный искусственный интеллект

📍Питание, обучение и проживание бесплатное, оплатить самим нужно будет только проезд.

Подавайте заявки и делитесь постом с друзьями и коллегами!
🔥5👍4
Forwarded from Институт AIRI
Осталось чуть больше 12 часов для подачи заявки на школу по искусственному интеллекту «Лето с AIRI» 🔔

Вдохновиться на написание резюме и посмотреть лекции прошлого года можно в плейлисте на YouTube.

Самое время запрыгнуть в последний вагон и заполнить форму по ссылке. Сбор заявок закрывается сегодня в 12 ночи ⚡️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥1🤡1
#offtop
🙌🙌🙌🙌 Разыскиваются ML-based стартапы!

Прием заявок: до 21 июля
Дата проведения программы: август – октябрь
Формат: онлайн
Организаторы: Центр "Пуск" МФТИ в сотрудничестве с Минэкономразвития РФ на базе Центров «Мой бизнес»
Участие: бесплатно


Подавайте заявку на участие в полной программе, если ваш стартап:
➡️ Основан на технологиях машинного обучения и искусственного интеллекта
➡️Находится на станции работающего прототипа или продукта с доказанным рыночным спросом

Только 30 стартапов из всех получат возможность поработать с опытными менторами из индустрии ИИ и машинного обучения.

Подать заявку на участие в отборе можно на странице программы.

26 июля в Telegram-канале программы опубликуем результаты отбора стартапов, там же будут опубликованы анонсы открытых образовательных мероприятий, доступных для всех.

Успеха!
🔥5
Сейчас многие ребатлятся на NeurIPS и строят теории пройдет статья или нет. Вот интересная статистика по accept/reject за последние три года

Из нее можно сделать два вывода (на примере 2023 года):

😄Хороший — принимают статьи даже со средней оценкой 3.7
😒Плохой — отклоняют статьи даже со средней оценкой 6.5

Так что, всем удачи! 🙃

Можно, кстати, ещё и третий сделать. Как думаете какой?🤔

Техническое замечание: статистика по reject считается только по открытым рецензиям, а их мало (~1.5%)
🔥42
Занимательный факт

По ссылке выше в списке статей, первой стоит статья от группы Евгения Бурнаева (AIRI, Сколтех) со средней оценкой 8.25 — наивысшей среди всех 🔥
👍81🔥1
Жизненное

Взято у Labrats и цензурировано 🤬

Защита кандидатской. Настаёт пора вопросов от комиссии. Самый уважаемый член комиссии начинает, с упреком:
— Вот на 5 странице своей работы вы используете слово пайплайн. Почему нельзя заменить русским аналогом?? К чему эти англицизмы???
Защищающийся:
— Виноват, пропустил, конечно же в следующих работах буду избегать
Уважаемый член продолжает:
— А вот на 23 странице вашей работы вы утверждаете, что данная тема в науке освещена мало. Однако мы с Владимиром Александровичем (кивает головой другому члену комиссии) писали об этом обзор в Вестнике Рязани еще в 1997г.
Защищающийся:
— Прошу прощения, упустили при подготовке работы. Обязательно ознакомлюсь и буду упоминать в введении статей
Член комиссии продолжает:
— И вот на 73 странице ваши результаты не соответствуют тому, что мы получали с Андреем Викторовичем (кивает еще одному члену комиссии) в нашей работе в 2001 году. Проверяли мы это на матмоделях, а не реальных данных, но сути вопроса это не меняет.
Защищающийся:
— Возможно, проблема в разных версиях используемых пакетов, из-за чего в моих расчётах могут быть неточности. Конечно же я подробно изучу данный вопрос в дальнейших работах.
Уважаемый член комиссии:
- А почему вы даже не пытаетесь со мной спорить? У вас что, за столько лет работы на благо науки так и не появилось своего виденья проблемы, которой вы занимаетесь?
– Виденье есть. А вот степени еще нет. А то бы я вас на *** послал еще на пайплайне
🤣20😁4🔥31🤡1💯1🗿1
Уже вторую неделю в ИТМО проходит летняя школа AIRI ☀️

На которой вчера читал лекцию про Langauge-based Robotics 👅 🤖
16🔥4💩1
Злободневно
😁18🤓2
На защите одного из проектов в рамках летней школы упомянули IceNet — модель для предсказания ледовой обстановки 🧊🚢

Не могу не привести фронт пейдж проекта в контексте прошлого поста
🔥13😁2👍1
Forwarded from Labrats
То, что ваша статья опубликована — это не ваша заслуга, а недоработка рецензента 2
😁19😢2👏1
🔥Делаем наш книжный клуб по Embodied AI публичным!🔥

Так что если вам эта тема (и всё что с ней связано) интересна, переходите в канал https://yangx.top/embodied_ai_rc — там будут анонсы встреч и материалы по ним
🔥10👍3👏1
Рис. 1, панели 1-3 - несколько соавторов пишут текст научной статьи в overleaf одновременно.
Рис. 1, панель 4 - ревьюеры 2 и 1 читают получившееся произведение.
😁11👍1🔥1🥴1🤣1
Forwarded from Институт AIRI
Исследователи AIRI разработали модель Neural Potential Field, которая помогает роботам прокладывать маршруты

Эта модель строит постоянно обновляемый ландшафт специальной функции стоимости, которая отвечает за избегание столкновений с препятствиями. Исследователи из группы «Embodied agents» AIRI продемонстрировали, что их алгоритм навигации для мобильных роботов, используя нейронное потенциальное поле, обеспечивает безопасное локальное планирование траектории с учетом формы робота. Научная статья была представлена на конференции ICRA 2024.

🔖Все подробности — в новой статье научного сотрудника Алексея Староверова на Хабре.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍1
Forwarded from Embodied AI Reading Club
Итоги встречи 27.09.2024 (презентация) 1/2
#LLM #uncertainty

Встреча была посвящена методам измерения неопределённости (больших) языковых моделей (LLM) в генерации следующих токенов

Традиционный подход вычисления такой неопределённости — это энтропия, считающаяся на основании логитов модели, однако у неё есть минусы

В работе «Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation» [1] замечается, что у семантически эквивалентных предложений ("The capital of France is Paris" и "France’s capital is Paris.") разная энтропия, потому что она считается на основании вероятностей токенов, а не смыслов слов

Эту проблему решает предложенная в статье семантическая энтропия. Алгоритм её вычисления заключается в следующем:

1️⃣ С помощью LLM сэмплируется несколько вариантов продолжения текста по промпту

2️⃣ Среди них ищутся семантически эквивалентные предложения. Семантически эквивалентными являются такие предложения, что, если из предложения А следует предложение Б, и наоборот (процедуры из natural language entailment)

3️⃣ Вычисляется сумма энтропий семантически эквивалентных генераций — семантическая энтропия

Методы оценки неопределённости языковых моделей сравниваются на вопросно-ответных датасетах, потому что должно выполняться, что чем неувереннее генерация, тем менее вероятно, что ответ модели правильный. Эксперименты на GPT-like моделях (OPT с разным количеством параметров) и датасетах CoQA и TriviaQA в работе [1] показали, что семантическая энтропия лучше предсказывает перформанс модели, чем другие бейзлайны. Этот метод является unsupervised и использует только одну языковую модель, но не может быть использован в неизменном виде для black-box моделей (например, GPT-3.5 и старше), потому что опирается на логиты

В статье «Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs» [2], напротив, предлагается Confidence Elicitation framework, подходящий для black-box моделей

Задача оценки неопределённости в этом фреймворке делится на три компонента: формулировка промпта, стратегия сэмлинга и агрегация результатов. Confidence Elicitation framework позволяет выбрать любое сочетание всех компонентов в качестве оценки неопределённости модели. Например, можно оценивать неопределенность с помощью Top-K промптинга (вербализация неуверенности через числа — ”Provide your K best guesses and the probability that each is correct (0% to 100%) for the following question."), Self-random семплинга (генерация последовательности по одному промпту несколько раз) и Consistency агрегации (доля вариантов, совпадающих с верным ответом)

Пользуясь фреймворком и большими языковыми моделями (Vicuna 13B, GPT-3 175B, GPT-3.5-turbo, GPT-4, LLaMA 2 70B), авторы сравнивают между собой множество стратегий оценки неопределённости. Эксперименты, среди прочего, показывают что:

1️⃣ LLMs чересчур уверены (overconfident), если вербализируют уверенность, т. е. отвечают на вопрос о своей уверенности в ответе

2️⃣ Стратегии промптинга частично уменьшают overconfidence модели

3️⃣ Не существует лучшей стратегии промптинга

4️⃣ Использование методов агрегации, опирающихся на вербализированную уверенность, лучше, чем Consistency-only агрегация

При этом в качестве метода оценки неопределённости на новой задаче можно попробовать Top-K prompting + Self-Random sampling + Avg-Conf / Pair-Rank aggregation.
🔥2
Forwarded from Embodied AI Reading Club
Итоги встречи 27.09.2024 (презентация) 2/2
#LLM #uncertainty

Статья «Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback» [3] также посвящена оценке методов неопределённости LLM, но сравнивает другой набор методов и фокусируется на моделях, дообученных с RLHF

Помимо упомянутых ранее методов, в статье тестируется метод лингвистической вербализации неуверенности модели, когда модель должна рассказать про свою неуверенность в терминах естественного языка (шкала Almost certain, Likely, . . . , Almost no chance)

По результатам экспериментов с ChatGPT, GPT-4, Claude и на нескольких QA датасетах у больших RLHF-LMs более скалиброванными оказались вербализованные скоры неуверенности (числом или на естественном языке), чем внутренние вероятности (логиты)

Помимо этого, выяснилось, что сэмплинг улучшает скалиброванность, а Chain-of-thought prompting не улучшает скалиброванность методов с вербализацией

Также в предшествующих работах есть наблюдение, что confidence scores плохо скалиброваны (т. е. плохо отражают реальную неуверенность модели), если модель дообучалась с RLHF, и статья [3] подверждает это. Возможный выход — опираться на вербализованную числом или текстом неуверенность

Работа «Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations» [4] также фокусируется на моделях с RLHF, но отличается от предыдущих работ тем, что сравнивает разные методы оценки неопределённости для задачи abstention от ответа — отказа отвечать, если модель сильно не уверена в ответе (“I don’t know”)

Вербализованная неуверенность в статье называется внутридиалоговой неуверенностью (In-Dialogue Uncertainty) и сравнивается со статистической неуверенностью

Эксперименты показывают, что во всех рассмотренных авторами ситуациях верно подобранная мера внутридиалоговой неуверенности улучшает abstention, чего статистическая уверенность не делает. Кроме того, In-Dialogue uncertainty уменьшает количество галлюцинаций для вопросов, на которые невозможно ответить ("What color iPhone did Einstein prefer?")

Выводы
Рассмотренные работы показывают, что существует множество различных вариантов получения оценок неуверенности модели, в зависимости от задачи может быть полезен конкретный метод

Традиционно использующаяся энтропия не учитывает смысл текст [1, 2], и иногда полезными оказываются методы, основанные на вераблизации неуверенности [3]

Кроме того, оценку неопределённости модели удобно концептуализировать через prompting, sampling, aggregation [2]
👏2
Хопфилду и Хинтону дали Нобелевскую премию по физики

“for foundational discoveries and inventions that enable machine learning with artificial neural networks”

Кажежется хайп вокруг AI выходит на новый уровень...

Из пресс-релиза:

Про Хопфилда“... The network (Hopfield network) as a whole is described in a manner equivalent to the energy in the spin system found in physics, and is trained by finding values for the connections between the nodes so that the saved images have low energy...”

Про Хинтона — “... Hinton used tools from statistical physics, the science of systems built from many similar components...”
🤡6🥴2🍾2🗿1
За бегом рабочих дней, незаслуженно мимо прошла новость, что две недели назад в университете Саламанки (старейшем в Испании и входящем в четвёрку старейших университетов Европы 😱) прошла конференция HAIS 2024 (The 19th International Conference on Hybrid Artificial Intelligence Systems), в которой мы участвуем уже не первый год

От нас была статья «Common Sense Plan Verification with Large Language Models» за авторством Даниила Григорьева, меня и Александра Панова. Мы предложили подход, комбинирующий перевод языковой инструкции в LTL-формулу (Linear Temporal Logic) и последующую верификацию плана с помощью LLM на основе её представлений о мире – тот самый Common Sense

К сожалению, от авторов никто не поехал, но наш коллега Пётр Кудеров (на фото) доблестно представил статью, за что ему огромное спасибо! 🤗
🔥20👏3💩1🤡1
Хороших выходных 😁
8🔥6
Forwarded from Embodied AI Reading Club
Всем привет!

Вот и записи встреч нашего книжного клуба

🔺 Методы определения неопределённости языковых моделей
Анастасия Иванова, ЦКМ МФТИ

🔺 Применение трансформерных моделей для Embodied AI
Ника Морозова, Embodied agents, Лаборатория Cognitive AI Systems AIRI

🔺 Vision-and-Language Navigation
Ева Бакаева, ЦКМ МФТИ

🔺 Rep'n'plan-подходы к построению и коррекции плана действий с помощью LLM для Embodied AI
Максим Патрацкий, ЦКМ МФТИ
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥92💩1🤡1
😁17👍3💩1🤡1