본 논문은 다단계 복합 과제에서의 테스트 시간 스케일링(TTS) 문제를 다룬다. 기존 연구는 단일 단계 과제에 집중한 반면, 실제 문제는 각기 다른 능력의 LLM을 필요로 하는 여러 하위 과제로 구성된 다단계 복합 과제이다. 본 논문은 각 하위 과제에 적합한 모델을 선택하고 예산을 할당하여 전반적인 성능을 극대화하는 것을 목표로, 다단계 복합 과제에서의 컴퓨팅 최적 스케일링 문제를 연구한다. 모델 및 예산 할당의 조합적 탐색 공간과 추론 비용의 높음으로 인해 무차별 탐색이 비현실적이며, 하위 과제 간 최적 모델 및 예산 할당이 상호 의존적이라는 두 가지 주요 과제를 제시한다. 이를 해결하기 위해, 6개 데이터셋에 걸친 4개 과제에 대한 광범위한 파일럿 실험을 수행하여 다단계 복합 과제에서 LLM의 동작을 특징짓는 세 가지 경험적 통찰력을 도출하고, 이러한 통찰력을 바탕으로 실행 환경과의 반복적인 피드백 기반 상호 작용을 통해 컴퓨팅 최적 할당을 자율적으로 탐색하는 LLM-agent 기반 프레임워크인 AgentTTS를 제안한다. 실험 결과, AgentTTS는 탐색 효율성에서 기존 및 다른 LLM 기반 기준 모델을 상당히 능가하며, 다양한 훈련 세트 크기에 대한 향상된 강건성과 해석성을 보여준다.
시사점, 한계점
•
시사점:
◦
다단계 복합 과제에서의 테스트 시간 컴퓨팅 최적화 문제에 대한 새로운 접근 방식 제시
◦
LLM-agent 기반 프레임워크 AgentTTS를 통해 효율적이고 강건하며 해석 가능한 컴퓨팅 자원 할당 가능