Sign In

How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach

Created by
  • Haebom
Category
Empty

저자

Ayeong Lee, Ethan Che, Tianyi Peng

개요

본 논문은 사고 과정 프롬프팅을 사용하여 복잡한 추론 작업을 수행하는 대규모 언어 모델(LLM)의 효율성 문제를 다룹니다. 기존 연구에서 간단한 프롬프트 전략(예: '간결하게')을 통해 응답 길이를 줄이려는 시도가 있었지만, 본 논문은 다양한 압축 지시어(예: '10단어 이하로', '모든 구두점 제거')에 따른 추론 길이와 모델 성능 간의 관계를 최초로 체계적으로 연구합니다. 그 결과, 매우 다른 추론 과정에서도 추론 길이와 정확도 간의 보편적인 트레이드오프가 존재함을 발견하고, 이는 각 작업마다 성공적인 문제 해결에 필요한 최소 토큰 수인 고유한 '토큰 복잡도'로 인한 임계값 동작 때문임을 보여줍니다. 또한 토큰 복잡도를 이용하여 정확도-압축 트레이드오프에 대한 정보 이론적 한계를 계산하고, 프롬프트 기반 압축 전략이 이러한 이론적 한계에서 멀리 떨어져 있음을 보여줍니다. 이는 추론 효율성 향상에 대한 상당한 여지가 있음을 시사하며, 본 연구의 프레임워크는 추론 효율성 개선 연구의 진행 상황을 평가하는 벤치마크를 제공합니다. 마지막으로, 쉬운 질문에는 더 짧은 응답을 제공하는 적응형 압축의 중요성을 강조하고, 토큰 복잡도가 이러한 능력을 측정하는 유용한 도구임을 보여줍니다.

시사점, 한계점

시사점:
추론 길이와 정확도 간의 보편적인 트레이드오프 존재를 밝힘.
각 작업의 고유한 '토큰 복잡도' 개념을 제시하고, 이를 이용한 정보 이론적 한계 계산 가능성 제시.
프롬프트 기반 압축 전략의 개선 여지가 큼을 제시하고, 추론 효율성 연구를 위한 벤치마크 프레임워크 제공.
적응형 압축의 중요성과 토큰 복잡도의 유용성을 강조.
한계점:
본 연구에서 제시된 프롬프트 기반 압축 전략은 이론적 한계에서 멀리 떨어져 있으므로, 더 효율적인 압축 전략 개발이 필요함.
다양한 유형의 추론 작업과 모델에 대한 일반화 가능성에 대한 추가 연구 필요.
토큰 복잡도 계산의 실용성 및 정확성에 대한 추가 연구 필요.
👍