EGPO는 함수 호출을 위한 대규모 언어 모델(LLM)의 효과적인 훈련을 목표로 하는 새로운 강화 학습(RL) 프레임워크입니다. 이 프레임워크는 그룹 상대 정책 최적화(GRPO)를 기반으로 하며, 복잡한 추론 경로 탐색과 안정적인 정책 최적화를 균형 있게 유지하도록 설계되었습니다. EGPO는 모델의 Chain-of-Thought(CoT) 엔트로피를 정책 기울기 계산에 통합하는 엔트로피 향상 어드밴티지 함수를 핵심으로 사용합니다. 이는 다양한 추론 전략의 생성을 장려합니다. 엔트로피 보너스는 최적화 방향 유지를 위해 클리핑 메커니즘으로 신중하게 제한됩니다. 엄격한 이진 보상 신호와 함께, EGPO는 모델이 구조화되고 정확한 도구 호출 패턴을 발견하도록 효과적으로 안내합니다. EGPO로 훈련된 40억 매개변수 모델은 까다로운 Berkeley Function Calling Leaderboard (BFCL)에서 동급 모델 중 최고 성능을 기록하며 GPT-4o 및 Gemini-2.5를 포함한 경쟁 모델들을 능가합니다.