TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents

Created by

Haebom

저자

Jiaqi Wang, Wenhao Zhang, Weijie Shi, Yaliang Li, James Cheng

💡 개요

본 연구는 다중 턴(multi-turn) 자율 에이전트 학습에서 기존의 정책 증류(On-policy distillation, OPD) 방식의 불안정성 문제를 규명하고, 이를 해결하기 위한 '시간 커리큘럼 기반 정책 증류(TCOD)'를 제안합니다. TCOD는 학생 모델이 학습하는 궤적(trajectory)의 길이를 점진적으로 늘리는 시간 커리큘럼을 통해 턴 간 오류 누적으로 인한 불안정성을 완화합니다. 실험 결과, TCOD는 기존 OPD 대비 성능을 최대 18%p 향상시키고, 때로는 교사 모델의 성능을 능가하는 결과를 보여주었습니다.

🔑 시사점 및 한계

•

다중 턴 자율 에이전트 학습에서 기존 OPD의 궤적 수준 KL 발산 불안정성(Trajectory-Level KL Instability) 문제를 효과적으로 해결할 수 있습니다.

•

제안된 시간 커리큘럼 방식은 턴 간 오류 누적 문제를 완화하여 학습 안정성을 높이고 에이전트 성능을 크게 향상시킵니다.

•

TCOD는 교사 모델의 성능을 뛰어넘고, 교사 모델이 실패하는 새로운 작업에서도 일반화 능력을 보여줍니다.

•

제안된 시간 커리큘럼의 최적 스케줄링이나 다양한 종류의 에이전트 및 작업에 대한 일반화 가능성에 대한 추가적인 탐구가 필요합니다.

PDF 보기

Made with Slashpage