# TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents

### 저자

Jiaqi Wang, Wenhao Zhang, Weijie Shi, Yaliang Li, James Cheng

### 💡 개요

본 논문은 멀티턴 자율 에이전트 학습에서 기존 on-policy distillation (OPD) 방법론이 겪는 'Trajectory-Level KL Instability' 문제를 지적합니다. 제안된 TCOD (Temporal Curriculum On-Policy Distillation)는 학습 초기에는 짧은 궤적을, 점진적으로 긴 궤적을 활용하는 커리큘럼 방식을 통해 이러한 문제를 해결합니다. 실험 결과, TCOD는 KL 발산을 완화하고 학습 안정성을 높여 기존 OPD 대비 최대 18%p 성능 향상을 보였습니다.

### 🔑 시사점 및 한계

- 멀티턴 환경에서 OPD의 훈련 불안정성을 야기하는 근본 원인(inter-turn error compounding)을 규명했습니다.

- 궤적 길이에 대한 시간적 커리큘럼을 도입함으로써 OPD의 학습 안정성과 성능을 크게 향상시키는 효과적인 프레임워크를 제시했습니다.

- TCOD가 훈련된 학생 모델이 때로는 교사 모델의 성능을 초과하고, 교사 모델이 실패하는 새로운 작업에도 일반화될 수 있음을 보여주었습니다.

- 제안된 시간적 커리큘럼의 최적 스케줄 및 다양한 멀티턴 환경에서의 추가적인 일반화 성능 검증이 향후 과제로 남아있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2604.24005)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).