본 논문은 다회차 상호작용을 위한 효과적인 AI 에이전트를 훈련시키기 위한 고품질 데이터 생성을 위한 새로운 프레임워크인 APIGen-MT를 제시합니다. APIGen-MT는 LLM 심사위원단과 반복적인 피드백 루프를 활용하여 정확한 행동을 포함하는 상세한 작업 청사진을 생성하는 에이전트 파이프라인과, 시뮬레이션된 사람-에이전트 상호작용을 통해 완전한 상호작용 경로를 생성하는 두 단계로 구성됩니다. 10억에서 700억 매개변수까지 다양한 크기의 xLAM-2-fc-r 모델 계열을 훈련시켰으며, $\tau$-bench 및 BFCL 벤치마크에서 GPT-4o 및 Claude 3.5와 같은 최첨단 모델보다 성능이 뛰어나며, 특히 다회차 설정에서 더 작은 모델이 더 큰 모델보다 우수한 성능을 보였습니다. 5,000개의 합성 데이터 경로와 훈련된 xLAM-2-fc-r 모델을 오픈소스로 공개하여 AI 에이전트 연구 발전에 기여합니다.
시사점, 한계점
•
시사점:
◦
다회차 상호작용 AI 에이전트 훈련을 위한 고품질 데이터 생성 방법 제시
◦
LLM 심사위원단과 반복적 피드백 루프를 활용한 검증 가능하고 다양한 데이터 생성
◦
최첨단 모델을 능가하는 성능을 보이는 xLAM-2-fc-r 모델 계열 개발 및 공개 (특히 다회차 상호작용에서 우수한 성능)
◦
합성 데이터셋(5,000개 경로) 공개를 통한 AI 에이전트 연구 발전에 대한 기여
•
한계점:
◦
데이터가 합성 데이터이므로 실제 사람-에이전트 상호작용의 복잡성을 완전히 반영하지 못할 수 있음.
◦
모델의 성능 평가가 특정 벤치마크에 국한되어 일반화 성능에 대한 추가 연구가 필요함.
◦
xLAM-2-fc-r 모델의 규모에 따른 성능 차이에 대한 추가 분석이 필요함 (특히, 작은 모델이 큰 모델보다 성능이 좋은 이유에 대한 명확한 설명 부족).