본 논문은 Chain-of-Thought (CoT)를 사용하는 대규모 언어 모델(LLM)의 추론 성능 향상에 대한 연구입니다. CoT 길이를 늘리면 성능이 향상되지만, 추론 지연 시간이 선형적으로 증가하는 문제점이 있습니다. 특히 CoT가 10,000 토큰을 초과하면 사용자 경험에 악영향을 미칩니다. 이를 해결하기 위해, 본 논문은 CoT 출력 내 토큰의 의미적 중요도를 분석하고, 중요도가 낮은 토큰을 선택적으로 건너뛰는 TokenSkip이라는 방법을 제안합니다. 다양한 모델과 작업에 대한 실험을 통해 TokenSkip이 CoT 토큰 사용량을 줄이면서 강력한 추론 성능을 유지한다는 것을 보여줍니다. Qwen2.5-14B-Instruct 모델을 사용한 GSM8K 실험에서 TokenSkip은 추론 토큰을 40% 줄였고, 성능 저하는 0.4% 미만이었습니다. 코드와 체크포인트는 깃허브에 공개되었습니다.