Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

KnowCoder-A1: Incentivizing Agentic Reasoning Capability with Outcome Supervision for KBQA

Created by
  • Haebom
Category
Empty

저자

Zhuo Chen, Fei Wang, Zixuan Li, Zhao Zhang, Weiwei Ding, Chuanguang Yang, Yongjun Xu, Xiaolong Jin, Jiafeng Guo

개요

KnowCoder-A1은 지식 베이스(KB)에 대한 자연어 질문에 답하기 위해 자율적으로 에이전트적 추론을 수행할 수 있는 대규모 언어 모델(LLM)입니다. 기존 방법과 달리 KnowCoder-A1은 결과 기반 감독 하에 멀티 스테이지 커리큘럼 강화 학습을 사용하여 LLM을 훈련하여 자율 탐색을 장려합니다. 특히, 쉬운 난이도에서 어려운 난이도로 진행되는 커리큘럼을 적용하여 희소한 보상 문제를 해결합니다. KnowCoder-A1은 3개의 주요 데이터 세트에서 기존 접근 방식보다 뛰어난 성능을 보이며, 특히 GrailQA의 제로샷 서브셋에서 최대 11.1%의 상대적 개선을 달성했습니다.

시사점, 한계점

시사점:
결과 기반 감독을 통한 LLM 훈련이 KBQA에서 효과적인 에이전트적 추론을 가능하게 함.
멀티 스테이지 커리큘럼 강화 학습은 자율 탐색을 장려하고 보상 희소성 문제를 완화하는 데 효과적임.
KnowCoder-A1은 소량의 데이터만 사용하여도 기존 방법보다 우수한 성능을 보이며, 특히 제로샷 환경에서 강점을 보임.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음.
👍