DRAFT-RL은 대규모 언어 모델(LLM)을 위한 새로운 프레임워크로, 멀티 에이전트 강화 학습(RL)에 Chain-of-Draft(CoD) 추론을 통합합니다. 단일 응답을 생성하는 대신, 각 에이전트는 쿼리당 여러 초안을 생성하고, 동료 에이전트와 학습된 보상 모델에 의해 평가됩니다. 이를 통해 가장 유망한 궤적을 식별하고, 선택된 초안을 통해 미래의 추론 전략을 개선합니다. DRAFT-RL은 명시적인 다중 경로 탐색, 동료 지침 반성 및 보상 정렬 선택을 가능하게 하여 보다 강력하고 해석 가능한 LLM 에이전트 동작을 구현합니다. 코드 합성, 기호 수학 및 지식 집약적 QA를 포함한 복잡한 추론 작업에서 기존의 반사 및 RL 기반 에이전트보다 정확도와 수렴 속도 면에서 뛰어난 성능을 보입니다.