Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky

Created by
  • Haebom

저자

Ashutosh Hathidara, Julien Yu, Sebastian Schreiber

개요

본 논문은 대규모 언어 모델(LLMs)이 유사한 기능을 가진 엔터프라이즈 API들을 구분하고, 불완전한 입력에도 올바르게 API를 호출하는 데 어려움을 겪는 문제를 해결하기 위해 DiaFORGE라는 프레임워크를 제시합니다. DiaFORGE는 persona-driven multi-turn 대화를 생성하고, 추론 과정을 포함하여 모델을 미세조정하며, 실제 환경에서 모델의 성능을 평가하는 세 단계로 구성됩니다. 3B~70B 파라미터의 오픈소스 모델을 DiaFORGE로 학습시킨 결과, GPT-4o 대비 27%, Claude-3.5-Sonnet 대비 49%의 API 호출 성공률 향상을 달성했습니다. 또한, 5000개의 엔터프라이즈 API 사양과 검증된 대화 데이터로 구성된 DiaBENCH 벤치마크를 공개하여 향후 연구를 촉진하고자 합니다.

시사점, 한계점

시사점:
유사한 기능의 API를 구분하고 불완전한 입력에도 정확하게 API를 호출하는 LLM의 성능 향상 가능성을 제시합니다.
실제 환경에서의 성능 평가를 위한 동적인 벤치마크 및 평가 방법론을 제공합니다.
5000개의 엔터프라이즈 API 사양과 대화 데이터를 포함한 오픈 데이터셋을 공개하여 후속 연구를 지원합니다.
DiaFORGE를 통해 개발된 모델은 기존 모델보다 API 호출 성공률을 크게 향상시켰습니다.
한계점:
DiaBENCH 벤치마크의 일반화 가능성에 대한 추가적인 검증이 필요합니다.
다양한 종류의 엔터프라이즈 API에 대한 일반화 성능은 추가 연구가 필요합니다.
DiaFORGE 프레임워크의 확장성 및 유지보수에 대한 추가적인 연구가 필요할 수 있습니다.
👍