APTBench: Benchmarking Agentic Potential of Base LLMs During Pre-Training
Created by
Haebom
저자
Jiarui Qin, Yunjia Xi, Junjie Huang, Renting Rui, Di Yin, Weiwen Liu, Yong Yu, Weinan Zhang, Xing Sun
개요
LLM 기반 에이전트의 급속한 발전에 따라, 에이전트 특정 데이터를 LLM 사전 훈련 단계에 통합하여 실제 자율 작업 실행에 더 잘 맞추려는 경향이 있습니다. 기존 사전 훈련 벤치마크는 일반 지식 또는 수학/코드 추론과 같은 고립되고 정적인 기술에 중점을 두어 모델의 에이전트 능력을 반영하지 못합니다. 반면, 에이전트 벤치마크는 일반적으로 사후 훈련된 모델을 위해 설계되어, 기본 모델이 지원하기 어려운 다중 턴 작업 실행 능력을 요구합니다. 따라서 사전 훈련 단계에서 에이전트 잠재력을 평가하고 모델 훈련을 보다 효과적으로 안내할 수 있는 벤치마크가 필요합니다. 이러한 격차를 해결하기 위해, 실제 에이전트 작업과 성공적인 궤적을 기본 모델에 맞게 여러 선택 또는 텍스트 완성 문제로 변환하는 프레임워크인 APTBench를 제안합니다. APTBench는 계획 및 행동과 같은 핵심 에이전트 능력에 초점을 맞추고, 소프트웨어 엔지니어링 및 심층 연구와 같은 주요 에이전트 시나리오를 다룹니다. 기존의 범용 벤치마크에 비해 APTBench는 모델이 에이전트로 다운스트림 성능을 예측하는 신호를 제공하며, 사후 훈련 후 완전한 규모의 종단간 에이전트 평가보다 훨씬 가볍고 비용 효율적입니다.
시사점, 한계점
•
시사점:
◦
LLM 사전 훈련 단계에서 에이전트 능력을 평가할 수 있는 새로운 벤치마크(APTBench) 제안.
◦
APTBench는 기존 벤치마크보다 다운스트림 에이전트 성능을 더 잘 예측함.
◦
APTBench는 가볍고 비용 효율적으로 설계되어 훈련 과정을 효율적으로 함.
•
한계점:
◦
APTBench가 에이전트의 모든 측면을 포괄하는지 여부는 추가 연구가 필요함.
◦
APTBench의 일반화 가능성에 대한 추가 검증이 필요함.
◦
APTBench가 다양한 에이전트 아키텍처 및 작업 환경에 적용될 수 있는지에 대한 추가 연구 필요.