LLM 기반 검색 에이전트는 복잡하고 지식 집약적인 작업을 해결하기 위해 엔티티 중심의 합성 데이터를 기반으로 점점 더 훈련되고 있습니다. 그러나 Group Relative Policy Optimization (GRPO)와 같은 기존의 훈련 방법은 풍부한 엔티티 정보를 폐기하고, 드문 결과 기반 보상에 의존합니다. 이는 유익한 "거의 성공" 샘플(추론은 상당히 정확하지만 최종 답변이 틀린 경우)과 완전한 실패를 구별할 수 없게 하여, 귀중한 학습 신호를 버리는 주요한 한계를 가지고 있습니다. 본 연구에서는 훈련 중에 버려진 엔티티를 활용하여 이 문제를 해결합니다. 엔티티 인식 그룹 상대 정책 최적화(E-GRPO)라는 새로운 프레임워크를 도입하여, 밀집된 엔티티 인식 보상 함수를 공식화합니다. E-GRPO는 엔티티 일치율에 비례하여 부정확한 샘플에 부분 보상을 할당하여 모델이 이러한 "거의 성공"에서 효과적으로 학습할 수 있도록 합니다. 다양한 질의 응답(QA) 및 심층 연구 벤치마크 실험에서 E-GRPO가 GRPO 기반을 일관되고 유의하게 능가함을 보였습니다. 또한 E-GRPO는 더 정확할 뿐만 아니라 더 적은 도구 호출을 필요로 하는 더 효율적인 추론 정책을 유도하여, 검색 에이전트 정렬에 대한 보다 효과적이고 샘플 효율적인 접근 방식을 보여줍니다.
시사점, 한계점
•
시사점:
◦
GRPO의 한계점을 극복하기 위해 엔티티 정보를 활용하는 새로운 학습 방법론 제시 (E-GRPO).