Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reinforcement Learning for Long-Horizon Interactive LLM Agents

Created by
  • Haebom

저자

Kevin Chen, Marco Cusumano-Towner, Brody Huval, Aleksei Petrenko, Jackson Hamburger, Vladlen Koltun, Philipp Krahenbuhl

개요

본 논문은 지시어 미세 조정된 거대 언어 모델(LLM) 기반의 대화형 디지털 에이전트(IDA)가 복잡한 환경에서 작업을 수행하는 데 어려움을 겪는 문제를 해결하기 위해 강화 학습(RL) 기반의 새로운 훈련 방법인 LOOP를 제시합니다. LOOP는 부분적으로 관측 가능한 마르코프 의사 결정 과정(POMDP)으로 훈련 과정을 공식화하고, 데이터 및 메모리 효율적인 근사 정책 최적화(PPO) 변형을 사용합니다. 값 네트워크를 사용하지 않고 LLM 하나만 메모리에 유지하여 구현이 간단하고 메모리 효율적입니다. AppWorld 환경에서 320억 매개변수 에이전트를 LOOP로 훈련시킨 결과, OpenAI o1 에이전트보다 9% 향상된 성능을 보였습니다. 이는 API를 통해 다중 도메인, 다중 앱 환경과 직접 상호 작용하는 IDA에 RL을 적용한 첫 번째 사례이며, 에이전트가 API 문서를 참조하고, 불필요한 가정을 피하며, 혼동을 최소화하고, 실패로부터 복구하는 것을 학습함을 보여줍니다.

시사점, 한계점

시사점:
강화학습(RL)을 이용하여 대화형 디지털 에이전트(IDA)의 성능을 획기적으로 향상시킬 수 있음을 보여줌.
LOOP 알고리즘은 기존 방법보다 데이터 및 메모리 효율적임.
IDA가 API 문서를 참조하고, 불필요한 가정을 피하며, 혼동을 최소화하고, 실패로부터 복구하는 등의 고급 전략을 학습함.
대규모 언어 모델 기반 에이전트의 실제 환경 적용 가능성을 높임.
한계점:
LOOP 알고리즘의 성능은 AppWorld 환경에 특화되어 있을 가능성이 있음. 다른 환경으로의 일반화 가능성에 대한 추가 연구 필요.
320억 매개변수의 LLM을 사용한 실험 결과이므로, 더 작은 모델에 적용했을 때의 성능은 확인되지 않음.
현재는 API를 통해 환경과 상호작용하는 방식에 국한되어 있으며, 다른 상호작용 방식에 대한 적용 가능성은 추가 연구가 필요함.
👍