본 논문은 Chain-of-Thought (CoT) 추론의 효율성 문제를 해결하기 위해 HAWKEYE라는 새로운 사후 훈련 및 추론 프레임워크를 제안합니다. 기존 CoT 추론의 과도한 중간 추론 토큰 생성으로 인한 계산 비용 및 지연 문제를 해결하기 위해, HAWKEYE는 대규모 모델이 간결한 CoT 지침을 생성하고, 이를 소규모 모델이 응답 생성에 활용하는 방식을 채택합니다. 강화 학습을 통해 CoT 추론의 중복성을 정량화하고 고밀도 정보를 추출하여, 응답의 질을 유지하면서 토큰 사용량과 계산 비용을 크게 줄입니다. 실험 결과, HAWKEYE는 전체 CoT의 35%만 사용하여도 비슷한 응답 품질을 달성하며, 명확성, 일관성, 간결성을 약 10% 향상시키고, 복잡한 수학 문제에서 최대 3.4배의 추론 속도 향상과 최대 60%의 추론 비용 절감 효과를 보였습니다. HAWKEYE는 오픈소스로 공개될 예정입니다.