Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Модель намеренно поощряется за настойчивость — если она делает retry и улучшает результат, это считается успехом.
Использует синтетические поисковые движки, которые заставляют модель перезапрашивать и улучшать свои ответы.
Обучается с помощью усиленного обучения (RL) — формируя привычку "не сдаваться".
@ai_machinelearning_big_data
#LLM #Search #RL #AI #Meta #ReZero #NeverGiveUp #Llama3
Please open Telegram to view this post
VIEW IN TELEGRAM