TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs
Created by
Haebom
Category
Empty
저자
Yuxiang Zhang, Zhengxu Yu, Weihang Pan, Zhongming Jin, Qiang Fu, Deng Cai, Binbin Lin, Jieping Ye
개요
OpenAI-o1 및 DeepSeek-R1과 같은 최신 추론 LLM은 긴 CoT(Chain-of-Thought) 추론 트레이스를 생성하여 복잡한 추론 작업에서 강력한 성능을 달성했습니다. 그러나 이러한 긴 CoT는 토큰 사용량을 증가시켜 추론 지연 시간과 메모리 소비를 증가시킵니다. 본 논문에서는 정확도를 유지하면서 토큰 비용을 줄이는 접근 방식의 필요성을 인식하여, 추론 경로를 압축하면서 성능을 보존하는 새로운 Long2Short 방법인 TokenSqueeze를 제안합니다. TokenSqueeze는 문제의 복잡성에 적응적으로 일치하는 자체 생성 샘플을 선택하고, 언어적 표현을 최적화하여 명확성과 간결성을 향상시킵니다. 제안된 방법으로 미세 조정된 DeepSeek-R1-Distill-Qwen-7B는 MATH500 벤치마크에서 정확도를 유지하면서 평균 50%의 토큰 감소를 달성했습니다. TokenSqueeze는 모델의 자체 생성 데이터만을 사용하여 다양한 응용 분야에서 수동으로 큐레이션된 단답형 데이터 세트에 의존하지 않고 효율적이고 높은 충실도의 추론을 가능하게 합니다.
시사점, 한계점
•
시사점:
◦
TokenSqueeze는 Long2Short 방법으로 추론 경로를 압축하여 토큰 사용량을 줄임.