본 논문은 대규모 언어 모델(LLM)의 추론 효율을 향상시키기 위해 긴 사고 과정(CoT)을 압축하는 새로운 전략을 제시합니다. 기존 연구들이 긴 CoT 내 모든 사고를 동일하게 압축하는 것과 달리, 본 연구는 각 사고의 중요도를 분석하여 효과적이고 간결한 추론을 가능하게 합니다. 자동 긴 CoT 청킹과 몬테카를로 롤아웃을 통해 각 사고의 효과성과 효율성을 분석하고, 이를 바탕으로 효과성과 효율성을 종합적으로 측정하는 이론적 경계가 있는 지표를 제안합니다. 이후, 긴 사고를 효과적으로 생성하는 LLM과 나머지 사고를 효율적으로 생성하는 LLM이 공동으로 문제를 해결하는 효율적인 추론 프레임워크인 Long$\otimes$Short를 제안합니다. 각각의 LLM을 위한 소량의 콜드 스타트 데이터를 합성하여 미세 조정하고, 모델 자체 진화와 두 LLM 간의 협업에 중점을 둔 시너지 지향적 다회차 강화 학습을 제안합니다. 실험 결과, 제안된 방법은 MATH500, AIME24/25, AMC23 및 GPQA Diamond 벤치마크에서 토큰 길이를 80% 이상 줄이면서 DeepSeek-R1-Distill-Qwen-7B 및 DeepSeek-R1-Distill-Llama-8B와 비교할 만한 성능을 달성함을 보여줍니다.