본 논문은 사고 연쇄 프롬프팅(Chain-of-thought prompting)을 사용하는 대규모 언어 모델(LLM)의 복잡한 추론 작업 해결 능력에 대한 연구이다. 사고 연쇄의 과도한 길이로 인한 비효율성 문제를 해결하기 위해, 다양한 압축 지시어(예: '10 단어 이내로', '모든 구두점 제거')를 사용하여 응답 길이 단축과 성능 간의 관계를 체계적으로 분석하였다. 그 결과, 서로 다른 추론 과정에서도 추론 길이와 정확도 간의 보편적인 트레이드오프 관계가 존재함을 발견하였다. 이는 각 작업마다 성공적인 문제 해결에 필요한 최소 토큰 수인 '토큰 복잡도'라는 고유한 임계값이 존재하기 때문이다. 논문에서는 토큰 복잡도를 이용하여 정확도-압축 트레이드오프에 대한 정보 이론적 한계를 계산하고, 기존의 프롬프트 기반 압축 전략이 이론적 한계에서 멀리 떨어져 있음을 보였다. 이는 추론 효율성 향상에 대한 상당한 개선 여지가 있음을 시사하며, 연구자들이 추론 효율성 향상을 평가할 수 있는 기준을 제공한다. 또한, 쉬운 질문에는 더 짧은 답변을 제공하는 적응형 압축의 중요성을 강조하고, 토큰 복잡도가 이러한 능력을 측정하는 유용한 도구임을 보였다.