Learning to Refine: An Agentic RL Approach for Iterative SPARQL Query Construction
Created by
Haebom
Category
Empty
저자
Floris Vossebeld, Shenghui Wang
개요
LLM이 복잡한 SPARQL 쿼리를 생성하는 문제 해결을 위해, 강화 학습(GRPO)을 사용하여 3B 파라미터 모델이 쿼리 생성 에이전트 역할을 하도록 설계했습니다. 이 에이전트는 실행 피드백을 기반으로 쿼리를 반복적으로 수정하며, LC-QuAD 2.0 데이터셋에서 기존 방법 대비 17.5%p 향상된 49.7%의 정확도를 달성했습니다. 특히, 명시적인 사고 단계를 통해 정책 정확도를 높이는 것을 확인했습니다.
시사점, 한계점
•
시사점:
◦
강화 학습 기반 에이전트가 복잡한 SPARQL 쿼리 생성에 효과적임을 입증.
◦
3B 파라미터 모델로도 충분한 성능을 달성하여 모델 크기에 대한 부담 완화.
◦
실행 오류를 기반으로 쿼리를 수정하는 능력은 실용적인 측면에서 중요.
◦
명시적인 사고 단계가 정책 정밀도를 향상시키는 데 기여.
•
한계점:
◦
LC-QuAD 2.0의 단일 정답 서브셋에만 제한적으로 적용.
◦
에이전트의 일반화 능력 및 다른 지식 그래프(Knowledge Graph)에 대한 적용 가능성 추가 연구 필요.