Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Rollout Roulette: A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods

Created by
  • Haebom

저자

Isha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava

개요

본 논문은 모델 크기나 데이터 크기를 키우는 대신 추론 시간에 사용하는 계산량을 늘리는 방법으로 대규모 언어 모델(LLM)의 성능 향상을 모색합니다. 기존의 추론 시간 확장 방법들은 보상 모델을 사용하여 문제를 탐색 문제로 규정하는데, 이는 보상 모델의 근사 오차로 인해 보상 해킹에 취약합니다. 본 논문에서는 추론 시간 확장을 확률적 추론 문제로 규정하고, 샘플링 기반 기법을 활용하여 근사 우도를 가진 상태 공간 모델의 상태 분포의 전형적인 집합을 탐색합니다. 입자 기반 몬테카를로 방법을 적용한 새로운 추론 시간 확장 방법을 제안하며, 다양한 어려운 수학적 추론 작업에서 기존 결정적 탐색 방법보다 4~16배 더 나은 확장률을 보임을 실험적으로 입증합니다. Qwen2.5-Math-1.5B-Instruct 모델은 제안된 방법을 사용하여 4번의 rollout만으로 GPT-4의 정확도를 능가하고, Qwen2.5-Math-7B-Instruct 모델은 32번의 rollout만으로 0.1 수준의 정확도를 달성합니다. 본 연구는 효과적인 추론 시간 확장 방법을 제시할 뿐만 아니라, 풍부한 확률적 추론 관련 연구와 LLM의 추론 시간 확장을 연결하여 향후 더욱 강력한 알고리즘 개발의 토대를 마련합니다.

시사점, 한계점

시사점:
추론 시간 확장을 확률적 추론 문제로 규정함으로써 보상 해킹에 대한 취약성을 줄임.
입자 기반 몬테카를로 방법을 활용하여 기존 방법보다 4~16배 향상된 확장률을 달성.
제한된 rollout 횟수로도 우수한 성능을 보이는 것을 실험적으로 입증 (Qwen2.5 모델 예시).
확률적 추론 분야와 LLM 추론 시간 확장 연구를 연결하여 향후 연구 방향 제시.
한계점:
제안된 방법의 일반적인 LLM 작업에 대한 성능은 추가 연구가 필요함.
특정 수학적 추론 작업에 대한 결과를 중심으로 제시되었으므로 다른 종류의 작업에 대한 일반화 가능성은 추가 검증 필요.
사용된 Qwen 모델의 특성에 대한 자세한 설명이 부족함.
👍