$\phi$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation
Created by
Haebom
Category
Empty
저자
Fangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Jun Liu, Qika Lin, Zhiyong Wu
개요
본 논문은 추론 시간 최적화를 통해 효과적인 성능을 위한 신중한 추론 단계를 도출하는 방법을 제시합니다. 기존의 탐색 기반 전략들이 자동 회귀 생성의 근시안적인 문제를 해결하는 데 초점을 맞춘 반면, 광대한 탐색 공간으로 인해 과도한 탐색과 부족한 활용이라는 문제점이 있었습니다. 이를 해결하기 위해, 본 논문에서는 미래 단계를 시뮬레이션하여 전역적으로 최적의 단계를 추정하는 선견지명 샘플링(foresight sampling)으로 디코딩 전략을 구성합니다. 이를 기반으로, $\phi$-Decoding이라는 새로운 디코딩 전략을 제안합니다. $\phi$-Decoding은 선견지명과 클러스터링을 통해 두 분포를 근사하여 단계 값의 정확하고 표현력 있는 추정을 제공합니다. 결합 분포에서 샘플링하여 최적의 단계를 선택하고 활용합니다. 또한 적응적 계산 할당을 지원하기 위해 경량 솔루션을 특징으로 하는 in-width 및 in-depth 가지치기 전략을 제안합니다. 7개의 벤치마크에 대한 광범위한 실험 결과, $\phi$-Decoding은 성능과 효율성 모두에서 강력한 기준 모델들을 능가하는 것으로 나타났습니다. 추가 분석을 통해 다양한 LLMs에 대한 일반화 성능과 광범위한 컴퓨팅 예산에 대한 확장성을 보여줍니다. 코드는 https://github.com/xufangzhi/phi-Decoding 에서 공개되며, 오픈 소스 PyPI 패키지는 곧 출시될 예정입니다.