본 논문은 대규모 언어 모델(LLMs)이 유사한 기능을 가진 엔터프라이즈 API들을 구분하고, 불완전한 입력에도 올바르게 API를 호출하는 데 어려움을 겪는 문제를 해결하기 위해 DiaFORGE라는 프레임워크를 제시합니다. DiaFORGE는 persona-driven multi-turn 대화를 생성하고, 추론 과정을 포함하여 모델을 미세조정하며, 실제 환경에서 모델의 성능을 평가하는 세 단계로 구성됩니다. 3B~70B 파라미터의 오픈소스 모델을 DiaFORGE로 학습시킨 결과, GPT-4o 대비 27%, Claude-3.5-Sonnet 대비 49%의 API 호출 성공률 향상을 달성했습니다. 또한, 5000개의 엔터프라이즈 API 사양과 검증된 대화 데이터로 구성된 DiaBENCH 벤치마크를 공개하여 향후 연구를 촉진하고자 합니다.