본 논문은 지시어 미세 조정된 거대 언어 모델(LLM) 기반의 대화형 디지털 에이전트(IDA)가 복잡한 환경에서 작업을 수행하는 데 어려움을 겪는 문제를 해결하기 위해 강화 학습(RL) 기반의 새로운 훈련 방법인 LOOP를 제시합니다. LOOP는 부분적으로 관측 가능한 마르코프 의사 결정 과정(POMDP)으로 훈련 과정을 공식화하고, 데이터 및 메모리 효율적인 근사 정책 최적화(PPO) 변형을 사용합니다. 값 네트워크를 사용하지 않고 LLM 하나만 메모리에 유지하여 구현이 간단하고 메모리 효율적입니다. AppWorld 환경에서 320억 매개변수 에이전트를 LOOP로 훈련시킨 결과, OpenAI o1 에이전트보다 9% 향상된 성능을 보였습니다. 이는 API를 통해 다중 도메인, 다중 앱 환경과 직접 상호 작용하는 IDA에 RL을 적용한 첫 번째 사례이며, 에이전트가 API 문서를 참조하고, 불필요한 가정을 피하며, 혼동을 최소화하고, 실패로부터 복구하는 것을 학습함을 보여줍니다.