Sign In

Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph

Created by
  • Haebom
Category
Empty

저자

Fali Wang, Jihai Chen, Shuhua Yang, Runxue Bao, Tianxiang Zhao, Zhiwei Zhang, Xianfeng Tang, Hui Liu, Qi He, Suhang Wang

개요

Test-Time Scaling (TTS)은 추론 과정에서 추가적인 계산을 할당하여 대규모 언어 모델(LLM)의 성능을 향상시키는 방법이다. 본 연구는 고정된 협업 아키텍처와 단일 모델 사용을 전제로 하는 기존 연구의 한계를 극복하고, 고정된 예산 내에서 compute-optimal한 모델 조합과 아키텍처를 탐색하는 새로운 문제를 제기한다. 이를 위해, multi-LLM 협업 그래프를 도입하여 노드는 역할과 LLM 모델 할당을, 엣지는 정보 흐름을 나타내도록 정의한다. 이 문제의 조합적 탐색 공간의 방대함과 태스크별 요구 사항의 차이로 인한 어려움을 해결하기 위해, 확률적 그래프 최적화 방식으로 문제를 재구성하고, Agent-REINFORCE라는 LLM-agent-augmented 프레임워크를 제안한다. Agent-REINFORCE는 REINFORCE 파이프라인을 모방하여, 샘플링-피드백-업데이트 과정을 통해 최적의 multi-LLM 협업 그래프를 효율적으로 탐색한다.

시사점, 한계점

Agent-REINFORCE는 기존 및 LLM 기반 baseline보다 샘플 효율성과 탐색 성능에서 우수한 결과를 보였다.
정확도와 추론 지연 시간의 공동 목표 하에서 최적의 그래프를 효과적으로 식별했다.
본 연구는 TTS 협업 그래프에 대한 세 가지 경험적 통찰력을 제공했다.
연구의 구체적인 한계점은 논문 전문을 참고해야 한다. (제공된 정보 내에서는 알 수 없음)
👍