본 논문은 대규모 언어 모델의 실세계 적용에 필수적인 함수 호출 기능을 향상시키기 위한 새로운 강화 학습 프레임워크를 제시합니다. 기존의 지도 학습 방식은 표면적인 패턴 매칭에 의존하는 반면, 기존의 강화 학습 방식은 구조화된 함수 호출의 복잡한 행동 공간에서 어려움을 겪습니다. 본 연구는 전략적 엔트로피 기반 탐색을 통해 그룹 상대 정책 최적화(GRPO)를 향상시키는 새로운 강화 학습 프레임워크를 제시하며, 함수 호출 과정에서의 불충분한 탐색, 사고 연쇄 생성에서의 구조적 추론 부족, 매개변수 추출의 부적절한 검증이라는 세 가지 주요 과제를 해결합니다. 반복적인 LLM 평가 및 추상 구문 트리 검증을 통한 2단계 데이터 준비 파이프라인을 통해 고품질 학습 샘플을 확보합니다. Berkeley Function Calling Leaderboard에서의 광범위한 실험 결과, 본 프레임워크는 오픈소스 모델 중 최첨단 성능(전체 정확도 86.02%)을 달성하며, 복잡한 다중 함수 시나리오에서 표준 GRPO보다 최대 6% 향상된 성능을 보였습니다. 특히 코드 사전 학습 모델에서 성능 향상이 두드러지게 나타나, 구조화된 언어 생성 기능이 함수 호출 작업에서의 강화 학습에 유리한 출발점을 제공함을 시사합니다. 모든 코드, 모델 및 데이터셋을 공개할 예정입니다.