Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph
Created by
Haebom
Category
Empty
저자
Fali Wang, Jihai Chen, Shuhua Yang, Runxue Bao, Tianxiang Zhao, Zhiwei Zhang, Xianfeng Tang, Hui Liu, Qi He, Suhang Wang
개요
Test-Time Scaling (TTS)은 추론 과정에서 추가적인 계산을 할당하여 대규모 언어 모델(LLM)의 성능을 향상시키는 방법이다. 본 연구는 고정된 협업 아키텍처와 단일 모델 사용을 전제로 하는 기존 연구의 한계를 극복하고, 고정된 예산 내에서 compute-optimal한 모델 조합과 아키텍처를 탐색하는 새로운 문제를 제기한다. 이를 위해, multi-LLM 협업 그래프를 도입하여 노드는 역할과 LLM 모델 할당을, 엣지는 정보 흐름을 나타내도록 정의한다. 이 문제의 조합적 탐색 공간의 방대함과 태스크별 요구 사항의 차이로 인한 어려움을 해결하기 위해, 확률적 그래프 최적화 방식으로 문제를 재구성하고, Agent-REINFORCE라는 LLM-agent-augmented 프레임워크를 제안한다. Agent-REINFORCE는 REINFORCE 파이프라인을 모방하여, 샘플링-피드백-업데이트 과정을 통해 최적의 multi-LLM 협업 그래프를 효율적으로 탐색한다.
시사점, 한계점
•
Agent-REINFORCE는 기존 및 LLM 기반 baseline보다 샘플 효율성과 탐색 성능에서 우수한 결과를 보였다.
•
정확도와 추론 지연 시간의 공동 목표 하에서 최적의 그래프를 효과적으로 식별했다.
•
본 연구는 TTS 협업 그래프에 대한 세 가지 경험적 통찰력을 제공했다.
•
연구의 구체적인 한계점은 논문 전문을 참고해야 한다. (제공된 정보 내에서는 알 수 없음)