Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond Token Length: Step Pruner for Efficient and Accurate Reasoning in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Canhui Wu, Qiong Cao, Chang Li, Zhenfang Wang, Chao Xue, Yuwei Fan, Wei Xi, Xiaodong He

Step Pruner (SP)를 이용한 효율적인 추론

개요

대규모 추론 모델(LRM)은 복잡한 작업에서 강력한 성능을 보이지만, 과도한 장황함, 즉 "과잉 사고"로 어려움을 겪습니다. 강화 학습(RL)을 통한 기존 해결책은 일반적으로 간결성을 위해 생성된 토큰에 페널티를 부과합니다. 그러나 이러한 방법은 두 가지 문제에 직면합니다. 더 적은 토큰의 응답이 항상 더 적은 추론 단계를 의미하지 않으며, 모델은 토큰 사용을 최소화하기 위해 추론 단계를 삭제하여 훈련 후반부에 해킹 행동을 보일 수 있습니다. 본 연구에서는 컴팩트한 추론 단계를 선호함으로써 LRM을 보다 효율적인 추론으로 유도하는 RL 프레임워크인 Step Pruner(SP)를 소개합니다. 단계 인식 보상 함수는 정답률을 우선시하는 동시에 중복 단계에 대한 페널티를 부과하고, 잘못된 추론의 강화 방지를 위해 부정확한 응답에 대한 보상을 보류합니다. 또한, 모델의 출력이 더 이상 짧아지지 않으면 단계 병합으로 인한 해킹 행동을 방지하기 위해 훈련을 중단하는 동적 중단 메커니즘을 제안합니다. 네 가지 추론 벤치마크에 대한 광범위한 실험을 통해 SP는 응답 길이를 크게 줄이면서 최첨단 정확도를 달성함을 보여줍니다. 예를 들어, AIME24에서 SP는 토큰 사용을 69.7% 줄입니다.

시사점, 한계점

시사점:
과잉 사고 문제를 해결하기 위해 효율적인 추론을 위한 새로운 RL 프레임워크인 Step Pruner(SP) 제시
정확성을 유지하면서 응답 길이를 효과적으로 줄임
동적 중단 메커니즘을 통해 해킹 행동 방지
여러 추론 벤치마크에서 SOTA 성능 달성
한계점:
논문에서 구체적인 한계점 언급은 없음.
👍