Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

StableToolBench-MirrorAPI: Modeling Tool Environments as Mirrors of 7,000+ Real-World APIs

Created by
  • Haebom

저자

Zhicheng Guo, Sijie Cheng, Yuchen Niu, Hao Wang, Sicheng Zhou, Wenbing Huang, Yang Liu

개요

본 논문은 대규모 언어 모델(LLM)의 도구 학습(tool learning)에서 안정성, 확장성, 현실성을 향상시키기 위해 MirrorAPI 프레임워크를 제안합니다. MirrorAPI는 7,000개 이상의 API의 요청-응답 쌍 데이터셋을 사용하여, 실제 API 응답을 정확하게 시뮬레이션하는 전문화된 LLM을 훈련합니다. 지도 학습 미세조정과 사고 연쇄(chain-of-thought) 추론을 통해 시뮬레이션 정확도를 높였으며, 새롭게 구축된 MirrorAPI-Bench 및 StableToolBench에서 기존 최고 성능 방법보다 우수한 정확도와 안정성을 달성했습니다.

시사점, 한계점

시사점:
도구 학습 환경의 안정성, 확장성, 현실성 문제 해결에 기여하는 새로운 프레임워크 제시
실제 API 응답을 정확하게 시뮬레이션하여 도구 학습 평가를 위한 효과적인 벤치마킹 환경 제공
MirrorAPI-Bench라는 새로운 벤치마크 데이터셋 구축을 통해 LLM 기반 도구 학습 연구 발전에 기여
StableToolBench와의 통합을 통해 실제 도구 학습 환경에서의 성능 향상 가능성 제시
한계점:
MirrorAPI의 성능은 사용된 API 데이터셋의 질과 양에 크게 의존할 수 있음. 데이터셋의 편향이나 부족은 시뮬레이션의 정확도에 영향을 미칠 수 있음.
새로운 API나 복잡한 API에 대한 일반화 성능에 대한 추가적인 연구가 필요함.
실제 API와의 완벽한 동일성을 보장할 수 없으므로, 실제 환경과의 차이에 대한 고려가 필요함.
👍