본 논문은 사고 연쇄(Chain-of-Thought, CoT) 추론의 효율성 문제를 해결하기 위해 HAWKEYE라는 새로운 사후 학습 및 추론 프레임워크를 제안합니다. CoT 추론은 대규모 언어 모델(LLM)의 추론 능력을 향상시키지만, 과도한 중간 추론 토큰 생성으로 인해 계산 비용과 지연 시간이 증가하는 문제점이 있습니다. HAWKEYE는 대부분의 CoT 토큰이 불필요하다는 점에 착안하여, 강화 학습을 통해 간결한 CoT 지침을 생성하고, 이를 이용하여 작은 모델이 응답을 생성하도록 합니다. 결과적으로 응답 품질을 유지하면서 토큰 사용량과 계산 비용을 크게 줄이고, 응답의 명확성, 일관성, 간결성을 향상시킵니다. 복잡한 수학 문제에서 최대 3.4배의 추론 속도 향상과 최대 60%의 추론 비용 절감 효과를 보였습니다. HAWKEYE는 오픈소스로 공개될 예정입니다.