Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scale Test-Time Compute
Created by
Haebom
저자
Jianhao Chen, Zishuo Xun, Bocheng Zhou, Han Qi, Qiaosheng Zhang, Yang Chen, Wei Hu, Yuzhong Qu, Wanli Ouyang, Shuyue Hu
개요
본 논문은 테스트 시간 계산을 확장하여 LLM 성능을 향상시키는 간단하고 효과적이며 비용 효율적인 전략을 제시합니다. 반복 샘플링 후 투표 프레임워크를 기반으로 하되, 다양한 훈련 데이터 및 패러다임에서 발생할 수 있는 상호 보완적인 강점을 활용하기 위해 여러 모델(성능이 낮은 모델도 포함)을 통합하는 새로운 방식을 제시합니다. 일관성을 신호로 사용하여 모델 간 동적으로 전환합니다. 이론적 분석을 통해 전략의 효율성과 성능 이점을 강조하며, 6개 데이터셋에 대한 광범위한 실험을 통해 제시된 전략이 자기 일관성 및 최첨단 다중 에이전트 논쟁 접근 방식을 능가할 뿐만 아니라 추론 비용도 크게 줄이는 것을 보여줍니다. 또한, ModelSwitch는 최적의 성능을 달성하기 위해 소수의 유사한 LLM만 필요하며, 검증 방법으로 확장할 수 있어 생성-검증 패러다임에서 여러 LLM을 활용할 수 있는 잠재력을 보여줍니다.