🛠️ Microsoft Research выложили в open-source новый инструмент — Debug-Gym.
Это песочница, где LLM‑агенты могут:
✅ Ставить брейкпоинты
✅ Чекать переменные
✅ Перезаписывать файлы, пока тесты не позеленеют
Всё изолировано в Docker — безопасно при проведение тестов.
📊 Протестировано 9 моделей на 3 бенчмарках. В эксперименте модели решали 300 багов — с доступом к Debug-Gym и без.
Когда агентам дали дебаг‑инструменты, их точность выросла. Но даже лучшие решили <50% задач на SWE‑bench Lite.
Писать код ИИ уже умеет.
Дебажить — пока нет.
А это и есть самая трудная часть.
Microsoft уже работает над обучением моделей для поиска информации при отладке, как RAG — но для дебага.
🔗 Сам инструмент: https://microsoft.github.io/debug-gym/
🔗Статья: https://arxiv.org/abs/2503.21557
@pythonl
#microsoft #ai #ml
Это песочница, где LLM‑агенты могут:
✅ Ставить брейкпоинты
✅ Чекать переменные
✅ Перезаписывать файлы, пока тесты не позеленеют
Всё изолировано в Docker — безопасно при проведение тестов.
📊 Протестировано 9 моделей на 3 бенчмарках. В эксперименте модели решали 300 багов — с доступом к Debug-Gym и без.
Когда агентам дали дебаг‑инструменты, их точность выросла. Но даже лучшие решили <50% задач на SWE‑bench Lite.
Писать код ИИ уже умеет.
Дебажить — пока нет.
А это и есть самая трудная часть.
Microsoft уже работает над обучением моделей для поиска информации при отладке, как RAG — но для дебага.
🔗 Сам инструмент: https://microsoft.github.io/debug-gym/
🔗Статья: https://arxiv.org/abs/2503.21557
@pythonl
#microsoft #ai #ml
❤10👍4🔥3