Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adaptive Rectification Sampling for Test-Time Compute Scaling

Created by
  • Haebom

저자

Zhendong Tan, Xingjun Zhang, Chaoyi Hu, Yancheng Pan, Shaoxun Wang

개요

본 논문은 대규모 언어 모델(LLM)의 테스트 시간 확장을 통해 복잡한 추론 문제 해결 능력을 향상시키는 새로운 방법인 적응적 수정 샘플링(AR-Sampling)을 제안합니다. 기존의 자기 수정 방법이 불필요한 토큰 낭비를 초래할 수 있는 문제점을 해결하기 위해, AR-Sampling은 프로세스 감독 보상 모델(PRM)과 트리거 문장을 활용하여 모델이 필요한 단계에서만 자기 수정을 수행하도록 유도합니다. GSM8K와 MATH500 데이터셋에서의 실험 결과, AR-Sampling은 정확도를 향상시키면서 추가 토큰 생성량을 합리적으로 유지하는 것을 보여줍니다.

시사점, 한계점

시사점:
LLM의 추론 능력 향상을 위한 새로운 테스트 시간 확장 방법 제시
기존 자기 수정 방법의 한계점인 불필요한 토큰 낭비 문제 해결
단계별 자기 수정을 통해 더욱 정교한 오류 수정 가능성 제시
PRM과 트리거 문장을 활용한 효율적인 자기 수정 유도 방법 제시
한계점:
제안된 방법의 일반성 및 다른 LLM이나 과제에 대한 적용 가능성에 대한 추가 연구 필요
PRM의 성능이 AR-Sampling의 성능에 크게 영향을 미칠 수 있음
특정 트리거 문장의 설계가 모델 성능에 영향을 줄 수 있음
GSM8K와 MATH500 데이터셋 외 다른 데이터셋에서의 성능 검증 필요
👍