Sign In

Simulating Environments with Reasoning Models for Agent Training

Created by
  • Haebom
Category
Empty

저자

Yuetai Li, Huseyin A Inan, Xiang Yue, Wei-Ning Chen, Lukas Wutschitz, Janardhan Kulkarni, Radha Poovendran, Robert Sim, Saravan Rajmohan

개요

LLM 에이전트는 깊은 추론이 필요한 좁은 환경에서는 뛰어나지만, 다양한 도구와 스키마에 걸쳐 견고성이 요구되는 광범위하고 복잡한 환경에서는 취약합니다. 이 논문에서는 LLM이 실제 테스트베드 데이터나 API에 접근하지 않고도 현실적인 환경 피드백을 시뮬레이션할 수 있음을 보여줍니다. 이를 바탕으로, 작은 시드 세트를 환경에 구애받지 않고 다양한 궤적으로 증폭하여 SFT 데이터를 합성하는 Simia-SFT 파이프라인과, LLM 시뮬레이션 피드백을 통해 실제 환경 구현 없이 RL 학습을 가능하게 하는 Simia-RL 프레임워크를 제안합니다. 오픈 모델을 미세 조정하면 여러 벤치마크에서 지속적인 개선을 보이며 GPT-4o를 능가하고 $\tau^2$-Bench에서 o4-mini에 근접합니다. Simia-SFT와 Simia-RL은 환경 엔지니어링 없이 확장 가능한 에이전트 학습을 가능하게 하며, 무겁고 취약한 구현을 유연한 LLM 기반 시뮬레이션으로 대체합니다.

시사점, 한계점

시사점:
LLM을 활용한 환경 시뮬레이션을 통해 실제 환경 구현 없이 에이전트 학습 가능.
Simia-SFT 및 Simia-RL 프레임워크를 통해 SFT 및 RL 학습을 환경에 구애받지 않고 수행.
오픈 모델 미세 조정을 통해 여러 벤치마크에서 성능 향상.
GPT-4o를 능가하는 성능, o4-mini에 근접하는 성능 달성.
한계점:
LLM 시뮬레이션의 정확성 및 현실성에 대한 검증 필요.
$\tau^2$-Bench 외 다른 벤치마크에서의 성능 비교 및 일반화 가능성 추가 검토 필요.
Simia-SFT 및 Simia-RL의 확장성 및 효율성에 대한 추가 연구 필요.
👍