본 논문은 구조화된 지식 기반(KB)에 대한 자연어 질문에 답하는 것을 목표로 하는 Knowledge Base Question Answering (KBQA)에 대한 연구를 제시합니다. 최근 연구는 LLM을 활용하여 질문을 반복적으로 분해하고, 논리적 쿼리를 생성하며, KB와 상호 작용하여 답변을 도출하는 에이전트적 추론 패러다임을 채택하여 KBQA를 개선했습니다. 그러나 이러한 방법은 일반적으로 과정 지도를 통해 합성된 추론 궤적에 대해 LLM을 미세 조정하여 탐험에 대한 약한 인센티브를 제공하고, 에이전트적 추론 능력을 강화하는 데 실패합니다. 본 논문에서는 KnowCoder-A1이라는, KB에서 자율적으로 에이전트적 추론을 수행하여 답변을 얻을 수 있는 LLM을 제안합니다. 자율적 탐험을 장려하기 위해 KnowCoder-A1은 쉬운 것에서 어려운 것으로 진행되는 다단계 커리큘럼 강화 학습을 통해 결과 전용 지도를 받으며 LLM을 훈련합니다. KnowCoder-A1은 먼저 결과 기반 거부 샘플링을 통해 얻은 소량의 고품질 궤적에 대해 LLM을 미세 조정하여 기본적인 에이전트적 능력을 확립합니다. 그런 다음, 결과 전용 지도에서 발생하는 보상 희소성을 완화하기 위해 쉽고 어려운 방향으로 진행되는 보상 일정을 갖춘 다단계 커리큘럼 RL을 적용합니다. 결과 전용 지도로 훈련된 KnowCoder-A1은 강력한 추론 행동을 보이며, 세 가지 주요 데이터 세트에서 이전 접근 방식을 지속적으로 능가합니다. 특히 GrailQA의 제로샷 서브셋에서 KnowCoder-A1은 훈련 데이터의 12분의 1만을 사용하면서 최대 11.1%의 상대적 개선을 달성하여 강력한 에이전트적 추론 능력을 보여줍니다.