Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition

Created by
  • Haebom

저자

Zihao Zeng, Xuyao Huang, Boxiu Li, Hao Zhang, Zhijie Deng

개요

본 논문은 대규모 추론 모델(LRM)의 사고 과정(CoT)이 과도하게 길어져 첫 토큰 생성 시간 및 전반적인 지연 시간이 길다는 문제점을 해결하기 위해, 다중 턴 분해(MinD) 기법을 제안합니다. MinD는 기존 CoT를 명시적이고 구조화된 턴 단위 상호 작용으로 분해하여 모델이 질의에 대한 다중 턴 응답을 생성하도록 합니다. 각 턴은 하나의 사고 단위를 포함하며 해당 답변을 생성하고, 이후 턴에서는 이전 턴의 사고 및 답변 부분을 반영, 검증, 수정 또는 대안적인 접근 방식을 모색할 수 있습니다. 이는 답변 생성 속도를 높일 뿐만 아니라 반복적인 추론 과정에 대한 명시적인 제어를 가능하게 합니다. 지도 학습 미세 조정(SFT)과 강화 학습(RL) 패러다임을 사용하여 MinD를 구현하며, MATH 데이터셋을 사용하여 R1-Distill 모델을 기반으로 학습했습니다.

시사점, 한계점

시사점:
LRM의 추론 효율성을 크게 향상시킬 수 있습니다. (최대 70%의 출력 토큰 사용량 및 첫 토큰 생성 시간 감소)
명시적이고 제어 가능한 다중 턴 추론 과정을 제공합니다.
MATH-500, AIME24, AMC23, GPQA-Diamond 등 다양한 추론 벤치마크에서 경쟁력 있는 성능을 유지합니다.
한계점:
다중 턴 형식으로 인해 미세 조정된 모델이 원래 모델보다 더 많은 토큰을 소모할 수 있습니다. (강화 학습을 통해 이를 완화)
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
특정 데이터셋(MATH)에 대한 성능에 치우쳐 다른 데이터셋에서의 성능은 추가적인 검증이 필요합니다.
👍