Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Optimizing Length Compression in Large Reasoning Models

Created by
  • Haebom

저자

Zhengxiang Cheng, Dongping Chen, Mingyang Fu, Tianyi Zhou

개요

본 논문은 대규모 추론 모델(LRMs)이 불필요하고 장황한 추론 과정을 생성하는 문제를 해결하기 위해, "잘못된 사고(invalid thinking)"라는 핵심 문제점을 제기합니다. 모델이 정답을 도출한 후에도 반복적으로 검증하는 경향이 이 문제의 원인이라고 주장합니다. 이를 해결하고자 효율성과 효과성을 넘어 간결성(Brevity)과 충분성(Sufficiency)이라는 두 가지 세분화된 원칙을 제안합니다. 이 원칙들을 바탕으로, 그룹 상대 정책 최적화(GRPO) 기반의 사후 훈련 방법인 LC-R1을 제시합니다. LC-R1은 전체적인 간결성을 위한 길이 보상과 추론 과정의 잘못된 부분을 제거하기 위한 압축 보상을 결합합니다. 여러 추론 벤치마크에 대한 실험 결과, LC-R1은 정확도가 약 2% 감소하는 것만으로도 시퀀스 길이를 약 50% 감소시켜, 높은 압축률을 우선시하는 파레토 최적점을 달성함을 보여줍니다. 또한 LC-R1의 강건성을 검증하고, 더욱 강력하면서도 계산 효율적인 LRM 개발을 위한 통찰력을 제공합니다. 코드는 https://github.com/zxiangx/LC-R1 에서 공개됩니다.

시사점, 한계점

시사점:
대규모 추론 모델의 비효율적인 추론 과정을 해결하기 위한 새로운 원칙(간결성, 충분성)과 방법(LC-R1) 제시
정확도 저하를 최소화하면서 추론 과정의 길이를 획기적으로 줄이는 효과적인 방법을 제시
높은 압축률을 달성하면서도 성능 저하를 최소화하는 파레토 최적점을 달성
LRM의 계산 효율성 향상에 기여
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 연구 필요
다양한 종류의 LRM에 대한 적용 가능성 및 성능 평가 필요
"잘못된 사고"의 정의 및 측정에 대한 추가적인 연구 필요
👍