ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning
작성자
Haebom
카테고리
Empty
저자
Ziqing Qiao, Yongheng Deng, Jiali Zeng, Dong Wang, Lai Wei, Guanbo Wang, Fandong Meng, Jie Zhou, Ju Ren, Yaoxue Zhang
개요
본 논문은 대규모 추론 모델(LRM)이 사고 과정(CoT) 프롬프트를 통해 복잡한 추론 작업에서 강력한 성능을 발휘하지만, 종종 과도한 출력으로 인해 계산 오버헤드가 증가하는 문제를 해결하고자 한다. 기존의 미세 조정 기반 압축 방법은 추론 일관성을 저해할 위험이 있는 사후 가지치기 또는 불필요한 내용을 완전히 제거하지 못하는 샘플링 기반 선택에 의존한다. 이를 해결하기 위해, 본 논문은 LRM에서 과도한 반추의 두 가지 주요 패턴, 즉 모델이 올바른 중간 단계를 반추하는 자신감 부족(Confidence Deficit)과 검증된 자신감 있는 답변 이후에도 반추가 계속되는 종료 지연(Termination Delay)을 자신감 기반 관점에서 정의한다. 이를 바탕으로, 본 논문은 자신감 주입(Confidence Injection)을 통한 추론 자신감 향상과 충분한 자신감이 있을 때 추론을 종료하는 조기 종료(Early Stopping)를 통합하여 간결한 추론 체인을 생성하는 ConCISE(Confidence-guided Compression In Step-by-step Efficient Reasoning) 프레임워크를 제안한다. 광범위한 실험 결과, ConCISE로 생성된 데이터에 대해 LRM을 미세 조정하는 것이 기준 방법에 비해 압축과 작업 성능 간의 균형을 더 잘 맞추어 SimPO 기준 최대 약 50%의 길이 감소와 높은 작업 정확도를 유지함을 보여준다.
시사점, 한계점
•
시사점:
◦
LRM의 과도한 출력으로 인한 계산 오버헤드 문제를 효과적으로 해결하는 ConCISE 프레임워크 제시.
◦
자신감 기반의 추론 압축 전략을 통해 압축률과 성능 간의 최적의 균형 달성.
◦
SimPO 기준 최대 50%의 출력 길이 감소를 달성하면서 높은 정확도 유지.
•
한계점:
◦
ConCISE 프레임워크의 성능은 특정 데이터셋(SimPO)에 대한 실험 결과에 기반하며, 다른 데이터셋이나 작업에 대한 일반화 성능은 추가 연구가 필요하다.
◦
자신감 점수의 정확성에 대한 의존도가 높아, 자신감 점수 측정의 부정확성이 성능에 영향을 미칠 수 있다.
◦
조기 종료 기준 설정에 대한 추가적인 연구가 필요하며, 최적의 조기 종료 기준은 작업 및 모델에 따라 다를 수 있다.