본 논문은 Chain-of-Thought (CoT) 프롬프팅의 분류 정확도 향상 효과를 유지하면서도 추론 생성을 위한 처리량 감소 문제를 해결하기 위해 Dual-Head Reasoning Distillation (DHRD)을 제안한다. DHRD는 훈련 및 추론에 사용되는 분류 헤드와 훈련에만 사용되는 추론 헤드를 추가하는 간단한 훈련 방법이다. SuperGLUE 벤치마크의 일곱 가지 작업에서 DHRD는 풀링된 기본 모델보다 0.655.47%의 상대적 이득을 보였으며, 특히 함의/인과 관계 작업에서 더 큰 이득을 얻었다. 추론 헤드는 테스트 시 비활성화되므로, DHRD는 동일한 백본에서 CoT 디코딩보다 96142배 더 높은 QPS에서 추론을 수행할 수 있다.
시사점, 한계점
•
시사점:
◦
CoT 프롬프팅의 이점을 유지하면서 추론 처리량 문제를 해결하는 새로운 방법론 제시.
◦
SuperGLUE 벤치마크에서 기존 모델 대비 성능 향상 입증 (특히 함의/인과 관계 작업에서).
◦
추론 헤드 비활성화를 통해 빠른 추론 속도 (CoT 디코딩 대비 96-142배 향상) 달성.
•
한계점:
◦
논문에 제시된 방법론이 다른 벤치마크나 다양한 종류의 작업에 대해 일반화될 수 있는지 추가적인 검증 필요.
◦
DHRD가 기존의 다른 추론 최적화 기술과 어떻게 비교되는지, 시너지 효과는 없는지에 대한 연구 필요.