Supervised Fine-Tuning (SFT)과 Reinforcement Learning (RL)을 통합하는 기존 방식의 문제점(응답 패턴 파괴, 과적합)을 해결하기 위해, 오프-정책(off-policy)과 온-정책(on-policy) 관점에서 SFT와 RL의 통합을 연구합니다. CHORD라는 프레임워크를 제안하며, 이는 SFT를 별도의 단계가 아닌 온-정책 RL 프로세스 내에서 동적으로 가중치를 부여하는 보조 목표로 재구성합니다. CHORD는 오프-정책 전문가 데이터의 영향을 분석하여, 전역 계수와 토큰 단위 가중 함수를 사용하는 이중 제어 메커니즘을 구현합니다. 이를 통해 온-정책 탐색을 촉진하고 오프-정책 데이터로 인한 방해를 완화하며, 수학적 추론 문제와 도구 사용 과제에서 기존 방법론보다 향상된 성능을 보입니다.