Sign In

KnowCoder-A1: Incentivizing Agentic Reasoning Capability with Outcome Supervision for KBQA

Created by
  • Haebom
Category
Empty

저자

Zhuo Chen, Fei Wang, Zixuan Li, Zhao Zhang, Weiwei Ding, Chuanguang Yang, Yongjun Xu, Xiaolong Jin, Jiafeng Guo

KnowCoder-A1: 자율적인 지식 기반 질의 응답을 위한 LLM

개요

본 논문은 구조화된 지식 기반(KB)에 대한 자연어 질문에 답하는 것을 목표로 하는 Knowledge Base Question Answering (KBQA)에 대한 연구를 제시합니다. 최근 연구는 LLM을 활용하여 질문을 반복적으로 분해하고, 논리적 쿼리를 생성하며, KB와 상호 작용하여 답변을 도출하는 에이전트적 추론 패러다임을 채택하여 KBQA를 개선했습니다. 그러나 이러한 방법은 일반적으로 과정 지도를 통해 합성된 추론 궤적에 대해 LLM을 미세 조정하여 탐험에 대한 약한 인센티브를 제공하고, 에이전트적 추론 능력을 강화하는 데 실패합니다. 본 논문에서는 KnowCoder-A1이라는, KB에서 자율적으로 에이전트적 추론을 수행하여 답변을 얻을 수 있는 LLM을 제안합니다. 자율적 탐험을 장려하기 위해 KnowCoder-A1은 쉬운 것에서 어려운 것으로 진행되는 다단계 커리큘럼 강화 학습을 통해 결과 전용 지도를 받으며 LLM을 훈련합니다. KnowCoder-A1은 먼저 결과 기반 거부 샘플링을 통해 얻은 소량의 고품질 궤적에 대해 LLM을 미세 조정하여 기본적인 에이전트적 능력을 확립합니다. 그런 다음, 결과 전용 지도에서 발생하는 보상 희소성을 완화하기 위해 쉽고 어려운 방향으로 진행되는 보상 일정을 갖춘 다단계 커리큘럼 RL을 적용합니다. 결과 전용 지도로 훈련된 KnowCoder-A1은 강력한 추론 행동을 보이며, 세 가지 주요 데이터 세트에서 이전 접근 방식을 지속적으로 능가합니다. 특히 GrailQA의 제로샷 서브셋에서 KnowCoder-A1은 훈련 데이터의 12분의 1만을 사용하면서 최대 11.1%의 상대적 개선을 달성하여 강력한 에이전트적 추론 능력을 보여줍니다.

시사점, 한계점

시사점:
결과 전용 지도하에서 LLM을 훈련하여 자율적인 에이전트적 추론 능력을 성공적으로 개발.
다단계 커리큘럼 강화 학습을 통해 탐험과 성능을 효과적으로 개선.
다양한 KBQA 데이터 세트에서 기존 방법보다 뛰어난 성능을 보임.
제로샷 설정에서 특히 높은 성능 향상을 보이며 일반화 능력 입증.
한계점:
논문에 구체적인 한계점에 대한 언급은 없음. (논문 내용 요약에 포함되지 않음)
👍