Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs

작성자

Haebom

카테고리

비어 있음

저자

Yujia Chen, Yang Ye, Xiao Chu, Yuchi Ma, Cuiyun Gao

💡 개요

본 논문은 여러 코딩 작업에 대해 단일 모델을 효율적으로 강화 학습시키기 위한 다중 작업 강화 학습(MTRL) 프레임워크인 ASTOR를 제안한다. ASTOR는 각 작업의 학습 잠재력과 작업 간 시너지를 측정하는 '작업 유용성(task utility)'이라는 신호를 기반으로 훈련 데이터 할당 및 정책 최적화를 동적으로 조정한다. 이를 통해 ASTOR는 개별 작업에 특화된 모델보다 우수한 성능을 보이며, 기존 MTRL 방법론의 한계를 극복한다.

🔑 시사점 및 한계

•

핵심 시사점 1: '작업 유용성'이라는 개념을 도입하여 다중 작업 강화 학습에서 데이터 스케줄링 및 정책 최적화를 효과적으로 조율할 수 있음을 보여준다.

•

핵심 시사점 2: 제안된 ASTOR 프레임워크가 단일 모델로 여러 코딩 작업을 일관되게 개선하며, 기존의 최고 성능 모델보다 뛰어난 성능 향상을 달성함을 입증한다.

•

한계점 또는 향후 과제: '작업 유용성' 측정의 정확성 및 일반화 가능성에 대한 추가적인 연구와 더 다양한 코딩 작업 및 LLM 아키텍처에 대한 검증이 필요할 수 있다.

PDF 보기

Slashpage로 제작됨