Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

Created by
  • Haebom

저자

Nishad Singhi, Hritik Bansal, Arian Hosseini, Aditya Grover, Kai-Wei Chang, Marcus Rohrbach, Anna Rohrbach

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 테스트 시간 계산 확장 전략, 특히 수학 문제 해결과 같은 작업에서의 전략을 연구합니다. 기존의 자기 일관성(Self-Consistency, SC) 방법과 보상 모델(verifier)을 사용하는 방법 외에, 생성적 보상 모델(Generative Reward Model, GenRM)을 이용한 새로운 방법이 제시되었으며, GenRM은 검증을 다음 토큰 예측 작업으로 재구성하여 추론 시간 확장을 가능하게 합니다. 본 논문은 고정된 추론 예산 하에서 GenRM과 SC를 비교 평가하여, 대부분의 실용적인 추론 예산에서 SC가 GenRM보다 계산 효율적임을 밝힙니다. 또한 GenRM 패러다임에 대한 추론 확장 법칙을 도출하여, 계산 최적화된 추론은 검증 수를 늘리는 것보다 솔루션 생성을 더 적극적으로 확장하는 것을 선호함을 보여줍니다. 결론적으로, 본 논문은 솔루션 생성과 검증의 균형을 맞춤으로써 테스트 시간 확장을 최적화하는 데 대한 실질적인 지침을 제공합니다.

시사점, 한계점

시사점:
고정된 추론 예산 하에서 자기 일관성(SC)이 생성적 보상 모델(GenRM)보다 계산 효율적임을 실험적으로 증명.
GenRM의 계산 최적화된 추론은 솔루션 생성 확장에 더 중점을 두어야 함을 시사하는 추론 확장 법칙 도출.
테스트 시간 확장 최적화를 위한 솔루션 생성과 검증의 균형 조정에 대한 실질적인 지침 제공.
한계점:
특정 모델과 데이터셋에 국한된 실험 결과. 다양한 모델과 데이터셋으로의 일반화 가능성에 대한 추가 연구 필요.
GenRM의 성능 향상을 위한 추가적인 최적화 기법에 대한 연구 필요.
👍