본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 발생하는 과도한 설명(chains of thought, CoTs) 문제를 해결하기 위한 새로운 방법인 Activation-Steered Compression (ASC)을 제시합니다. ASC는 모델의 활성화 공간에서 간결한 수학적 추론과 장황한 영어 기반 추론의 차이를 활용하여, "조향 벡터(steering vector)"를 추출하고 주입함으로써 추론 과정을 압축합니다. 이는 재훈련 없이 추론 시점에 은닉 표현을 직접 수정하여 CoT 길이를 단축하는 기술입니다. KL-divergence-bounded constraint를 이용한 이론적 분석을 통해 조향 강도를 조절하고, MATH500 및 GSM8K 데이터셋에서 최대 67.43%의 CoT 길이 감소를 달성하면서 정확도를 유지함을 보여줍니다. 특히, 8B 모델에서 평균 2.73배의 속도 향상을 기록하며, 지연 시간이나 비용에 민감한 환경에서 추론 능력을 갖춘 LLM 배포를 위한 실용적이고 효율적인 도구임을 제시합니다.