KnowCoder-A1은 지식 베이스(KB)에 대한 자연어 질문에 답하기 위해 자율적으로 에이전트적 추론을 수행할 수 있는 대규모 언어 모델(LLM)입니다. 기존 방법과 달리 KnowCoder-A1은 결과 기반 감독 하에 멀티 스테이지 커리큘럼 강화 학습을 사용하여 LLM을 훈련하여 자율 탐색을 장려합니다. 특히, 쉬운 난이도에서 어려운 난이도로 진행되는 커리큘럼을 적용하여 희소한 보상 문제를 해결합니다. KnowCoder-A1은 3개의 주요 데이터 세트에서 기존 접근 방식보다 뛰어난 성능을 보이며, 특히 GrailQA의 제로샷 서브셋에서 최대 11.1%의 상대적 개선을 달성했습니다.
시사점, 한계점
•
시사점:
◦
결과 기반 감독을 통한 LLM 훈련이 KBQA에서 효과적인 에이전트적 추론을 가능하게 함.
◦
멀티 스테이지 커리큘럼 강화 학습은 자율 탐색을 장려하고 보상 희소성 문제를 완화하는 데 효과적임.
◦
KnowCoder-A1은 소량의 데이터만 사용하여도 기존 방법보다 우수한 성능을 보이며, 특히 제로샷 환경에서 강점을 보임.