This page organizes papers related to artificial intelligence published around the world. This page is summarized using Google Gemini and is operated on a non-profit basis. The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.
Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models
Created by
Haebom
Category
Empty
저자
Yinlam Chow, Guy Tennenholtz, Izzeddin Gur, Vincent Zhuang, Bo Dai, Sridhar Thiagarajan, Craig Boutilier, Rishabh Agarwal, Aviral Kumar, Aleksandra Faust
개요
대규모 언어 모델(LLM)의 성능 향상을 위해 추론 시 컴퓨팅 자원을 효과적으로 활용하는 방안을 제시합니다. 본 연구는 추론 시 전략의 성능을 직접 최적화하는 방식으로 모델을 미세 조정하는 새로운 추론 인식 미세 조정 패러다임을 제안합니다. 특히, 여러 LLM 생성 응답 중 가장 적합한 것을 선택하는 Best-of-N(BoN) 추론 전략을 사용하여 이 패러다임을 연구합니다. BoN을 인식하는 미세 조정을 위해 모방 학습 및 강화 학습(RL) 방법을 개발하여 BoN 내의 비 미분 가능한 argmax 연산자를 극복합니다. 실험 결과, BoN 인식 모델이 테스트 시 입력에 더 적합할 수 있는 다양한 응답과 최상의 응답을 번갈아 가며 사용하는 메타 전략을 암묵적으로 학습하며, 이는 RL의 탐색-활용 트레이드 오프와 유사함을 보입니다. 본 연구는 BoN 인식 미세 조정을 통해 성능 향상 및 추론 시 컴퓨팅 자원 활용 효과를 입증했습니다.
시사점, 한계점
•
시사점:
◦
Best-of-N(BoN) 추론 전략을 활용하여 대규모 언어 모델(LLM)의 성능을 향상시키는 새로운 미세 조정 패러다임 제시.
◦
BoN 인식 미세 조정을 위한 모방 학습 및 강화 학습(RL) 방법 개발.
◦
BoN 인식 모델이 탐색-활용 트레이드 오프와 유사한 메타 전략을 학습함을 입증.
◦
Gemma 2B 모델의 Hendrycks MATH 및 HumanEval 벤치마크에서 BoN 성능 향상 확인.