본 논문은 다회차 상호작용을 위한 효과적인 AI 에이전트 훈련을 위해 고품질 데이터 생성을 위한 새로운 프레임워크인 APIGen-MT를 제시합니다. APIGen-MT는 LLM 검토자와 반복적인 피드백 루프를 활용하여 정확한 작업 청사진을 생성하는 에이전트 파이프라인과, 시뮬레이션된 사람-에이전트 상호작용을 통해 완전한 상호작용 경로를 생성하는 두 단계로 구성됩니다. 이를 통해 생성된 데이터를 사용하여 훈련된 xLAM-2-fc-r 모델 시리즈(10억~700억 파라미터)는 GPT-4o 및 Claude 3.5와 같은 최첨단 모델들을 $\tau$-bench 및 BFCL 벤치마크에서 능가하며, 특히 다회차 설정에서 더 작은 모델이 더 큰 모델보다 우수한 성능을 보였습니다. 본 논문에서는 5,000개의 합성 데이터 경로와 훈련된 xLAM-2-fc-r 모델들을 오픈소스로 공개하여 AI 에이전트 연구 발전에 기여합니다.
시사점, 한계점
•
시사점:
◦
고품질 다회차 상호작용 데이터 생성을 위한 효과적인 프레임워크(APIGen-MT) 제시.
◦
기존 최첨단 모델들을 능가하는 성능을 보이는 xLAM-2-fc-r 모델 시리즈 개발.
◦
다회차 설정에서 작은 모델의 우수한 성능 확인.
◦
5,000개의 합성 데이터와 훈련된 모델의 오픈소스 공개를 통한 연구 발전 기여.
•
한계점:
◦
시뮬레이션된 데이터의 현실 세계 데이터와의 차이에 대한 명확한 검증 부족.
◦
LLM 검토자 의존도가 높아, 검토자의 편향이 결과에 영향을 미칠 가능성 존재.
◦
벤치마크 평가의 한계로 인해 실제 응용 환경에서의 성능을 완벽하게 반영하지 못할 가능성 존재.