Sign In

Efficient Test-Time Scaling via Self-Calibration

Created by
  • Haebom
Category
Empty

저자

Chengsong Huang, Langlin Huang, Jixuan Leng, Jiacheng Liu, Jiaxin Huang

개요

본 논문은 대규모 언어 모델(LLM)의 응답 품질 향상을 위해 test-time 계산량 증가라는 직접적인 접근 방식을 제시합니다. Best-of-N 샘플링과 다수결 투표를 사용한 Self-Consistency는 간단하고 효과적이지만, 질문의 복잡성에 관계없이 고정된 샘플링 응답 수를 필요로 합니다. 이는 단순한 질문에는 계산 낭비를, 더 어려운 질문에는 탐색 부족을 초래할 수 있습니다. 따라서 본 논문에서는 모델 응답의 신뢰도를 활용하여 test-time scaling의 효율성을 향상시킬 수 있다고 주장합니다. LLM이 과신뢰하는 경향이 있고 신뢰도 추정이 신뢰할 수 없다는 점을 고려하여, Self-Consistency에서 얻은 신뢰도를 모델 자체에 증류하는 Self-Calibration을 제안합니다. 이를 통해 한 번의 순전파로 test-time에서 신뢰할 수 있는 신뢰도 추정이 가능해집니다. 그리고 Best-of-N에 대한 조기 중단 및 보정된 신뢰도를 사용한 Self-Consistency와 같이 다양한 난이도의 질문을 처리하기 위한 신뢰도 기반의 효율적인 test-time scaling 방법을 설계합니다. 세 가지 LLM과 여섯 가지 데이터셋에 대한 실험을 통해 제안된 방법의 효과를 보여줍니다. 예를 들어, Best-of-N에 신뢰도 기반 조기 중단을 적용하면 샘플 수 16개로 MathQA 정확도가 81.0에서 83.6으로 향상됩니다.

시사점, 한계점

시사점:
LLM의 응답 품질 향상을 위한 test-time scaling의 효율성을 높이는 새로운 방법 제시.
모델의 신뢰도를 활용하여 질문의 난이도에 따라 계산량을 동적으로 조절.
Self-Calibration을 통해 신뢰할 수 있는 신뢰도 추정을 가능하게 함.
Best-of-N 및 Self-Consistency와 같은 기존 방법의 성능 개선.
다양한 LLM과 데이터셋에서 효과 검증.
한계점:
Self-Calibration의 일반화 성능에 대한 추가 연구 필요.
제안된 방법의 계산 비용과 성능 간의 절충점에 대한 추가 분석 필요.
다양한 유형의 LLM 및 작업에 대한 확장성 검토 필요.
👍