Sign In

Interaction as Intelligence Part II: Asynchronous Human-Agent Rollout for Long-Horizon Task Training

Created by
  • Haebom
Category
Empty

저자

Dayuan Fu, Yunze Wu, Xiaojie Cai, Lyumanshan Ye, Shijie Xia, Zhen Huang, Weiye Si, Tianze Xu, Jie Sun, Keyu Li, Mohan Jiang, Junfei Wang, Qishuo Hua, Pengrui Lu, Yang Xiao, Pengfei Liu

개요

Apollo는 장기적인, 도메인 특화된 작업에서 성공하도록 대규모 언어 모델(LLM) 에이전트를 훈련하는 데 사용되는 샘플링 프레임워크입니다. 이 프레임워크는 비동기식 인간 지침과 액션 레벨 데이터 필터링을 통합합니다. Apollo는 주석가가 모든 단계를 따라야 하는 대신, 에이전트가 유망한 궤적에서 벗어날 때만 개입하여 사전 지식과 전략적 조언 등을 제공하도록 허용합니다. Apollo는 감독 제어를 적용하여 하위 최적 액션을 필터링하고 오류 전파를 방지합니다. InnovatorBench를 사용하여 GLM-4.5 모델을 훈련한 결과, Apollo는 훈련되지 않은 기본 모델보다 50% 이상, 인간 상호 작용 없이 훈련된 변형 모델보다 28% 개선을 달성했습니다.

시사점, 한계점

시사점:
Apollo는 장기적인, 도메인 특화된 작업에서 LLM 에이전트 훈련의 효율성을 향상시킵니다.
비동기식 인간 지침을 통해 주석 비용을 절감합니다.
감독 제어를 통해 데이터 품질을 향상시키고 오류 전파를 방지합니다.
InnovatorBench에서의 실험을 통해 효과를 입증했습니다.
한계점:
구체적인 한계점은 논문에서 제시되지 않았습니다.
👍