Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mitigating Strategy-Selection Bias in Reasoning for More Effective Test-Time Scaling

Created by
  • Haebom

저자

Zongqian Wu, Baoduo Xu, Tianyu Li, Zhu Sun, Xiaofeng Zhu, Lei Feng

개요

본 논문은 대규모 언어 모델(LLM)의 성능 향상을 위한 테스트 시점 스케일링(TTS)에서 존재하는 추론 전략 선택 편향 문제를 다룬다. 기존 TTS는 다양한 추론 경로를 샘플링하고 집계하여 성능을 향상시키지만, LLM이 특정 추론 전략(예: 수학 문제의 대수적 해법)을 선호하고 다른 유효한 대안(예: 기하학적 해법)을 간과함으로써 해결 공간 탐색이 부족하다는 문제점을 지적한다. 이를 해결하기 위해, 본 논문은 이러한 선택 편향이 TTS의 효과를 저해하는 시점을 밝히는 이론적 분석을 제시하고, 추론 전략의 선택 편향을 완화하기 위한 TTS-Uniform 프레임워크를 제안한다. TTS-Uniform은 (i) 잠재적 전략을 식별하고, (ii) 샘플링 예산을 균등하게 할당하며, (iii) 집계 전에 불안정한 전략을 필터링한다. 실험 결과, TTS-Uniform은 여러 주요 LLM과 벤치마크 데이터셋에서 스케일링 효과를 크게 향상시킨다.

시사점, 한계점

시사점:
LLM의 TTS에서 추론 전략 선택 편향 문제를 최초로 규명하고 이론적으로 분석하였다.
선택 편향 문제를 완화하는 TTS-Uniform 프레임워크를 제시하고, 그 효과를 실험적으로 검증하였다.
다양한 LLM과 벤치마크 데이터셋에서 TTS-Uniform의 우수성을 보여주었다.
한계점:
TTS-Uniform의 성능 향상이 모든 유형의 문제와 LLM에 일반화될 수 있는지에 대한 추가 연구가 필요하다.
잠재적 전략 식별 및 불안정 전략 필터링 과정의 계산 비용이 높을 수 있다.
특정 문제에 대한 최적의 추론 전략을 자동으로 찾는 방법에 대한 추가 연구가 필요하다.
👍