Interaction as Intelligence Part II: Asynchronous Human-Agent Rollout for Long-Horizon Task Training
Created by
Haebom
Category
Empty
저자
Dayuan Fu, Yunze Wu, Xiaojie Cai, Lyumanshan Ye, Shijie Xia, Zhen Huang, Weiye Si, Tianze Xu, Jie Sun, Keyu Li, Mohan Jiang, Junfei Wang, Qishuo Hua, Pengrui Lu, Yang Xiao, Pengfei Liu
개요
본 논문은 장기적인, 특정 분야의 과제에서 성공하기 위한 대규모 언어 모델(LLM) 에이전트 훈련의 어려움을 해결하기 위해 개발된 Apollo라는 샘플링 프레임워크를 소개합니다. Apollo는 비동기식 인간 지침과 동작 수준의 데이터 필터링을 통합하여, 인간 주석가가 모든 단계를 따라갈 필요 없이, 에이전트가 유망한 궤적에서 벗어날 때만 개입하도록 합니다. 이 접근 방식은 비용을 절감하면서 가치 있는 궤적을 생성하며, 감독 제어를 통해 최적화되지 않은 동작을 필터링하여 오류 전파를 방지합니다. InnovatorBench에서 GLM-4.5 모델을 훈련한 결과, Apollo는 훈련되지 않은 기본 모델보다 50% 이상, 인간 상호 작용 없이 훈련된 모델보다 28%의 성능 향상을 보였습니다.
시사점, 한계점
•
시사점:
◦
Apollo는 장기적인, 특정 분야의 과제에서 LLM 에이전트의 효과적인 훈련을 가능하게 하는 새로운 샘플링 프레임워크를 제공합니다.
◦
비동기식 인간 지침을 통해 비용 효율적인 데이터 수집을 지원하며, 인간의 개입이 필요한 시점을 효율적으로 활용합니다.
◦
감독 제어를 통해 오류 전파를 방지하고, 훈련의 안정성을 높입니다.
◦
InnovatorBench에서의 실험을 통해 Apollo의 효과를 입증했습니다.
•
한계점:
◦
Apollo의 성능은 인간의 지침 품질에 의존하며, 인간의 전문성이 중요합니다.
◦
InnovatorBench와 같은 특정 환경에서의 결과만을 제시하고 있으며, 다른 환경에서의 일반화 가능성은 추가 연구가 필요합니다.
◦
GLM-4.5 모델에 한정된 실험 결과로, 다른 LLM 모델에 대한 효과는 확인되지 않았습니다.