Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs

Created by
  • Haebom
Category
Empty

저자

Yuxiang Zhang, Zhengxu Yu, Weihang Pan, Zhongming Jin, Qiang Fu, Deng Cai, Binbin Lin, Jieping Ye

개요

OpenAI-o1 및 DeepSeek-R1과 같은 최신 추론 LLM은 긴 CoT(Chain-of-Thought) 추론 트레이스를 생성하여 복잡한 추론 작업에서 강력한 성능을 달성했습니다. 그러나 이러한 긴 CoT는 토큰 사용량을 증가시켜 추론 지연 시간과 메모리 소비를 증가시킵니다. 본 논문에서는 정확도를 유지하면서 토큰 비용을 줄이는 접근 방식의 필요성을 인식하여, 추론 경로를 압축하면서 성능을 보존하는 새로운 Long2Short 방법인 TokenSqueeze를 제안합니다. TokenSqueeze는 문제의 복잡성에 적응적으로 일치하는 자체 생성 샘플을 선택하고, 언어적 표현을 최적화하여 명확성과 간결성을 향상시킵니다. 제안된 방법으로 미세 조정된 DeepSeek-R1-Distill-Qwen-7B는 MATH500 벤치마크에서 정확도를 유지하면서 평균 50%의 토큰 감소를 달성했습니다. TokenSqueeze는 모델의 자체 생성 데이터만을 사용하여 다양한 응용 분야에서 수동으로 큐레이션된 단답형 데이터 세트에 의존하지 않고 효율적이고 높은 충실도의 추론을 가능하게 합니다.

시사점, 한계점

시사점:
TokenSqueeze는 Long2Short 방법으로 추론 경로를 압축하여 토큰 사용량을 줄임.
성능 저하를 방지하기 위해 문제 복잡도에 따라 적응적으로 자체 생성 샘플을 선택함.
언어적 표현을 최적화하여 추론 경로의 명확성과 간결성을 향상시킴.
DeepSeek-R1-Distill-Qwen-7B 모델에서 MATH500 벤치마크 정확도를 유지하면서 50% 토큰 감소를 달성함.
자체 생성 데이터만 사용하므로 수동 데이터 세트 의존성에서 벗어남.
한계점:
논문에서 구체적인 한계점 언급 없음. (하지만 논문의 성격상, 다른 Long2Short 방법에 비해 성능이 우수하지만, 여전히 모든 추론 작업에 최적화되어 있지 않을 수 있음.)
👍