본 논문은 대규모 언어 모델(LLM)의 신뢰성 있는 정보 검색 시스템 구축을 위해 맥락에 충실한 응답 생성 능력 향상에 초점을 맞추고 있다. 인간의 주석 없이 단답형 및 장문형 생성 작업 모두에서 LLM의 충실도를 향상시키는 체계적인 프레임워크인 CANOE를 제안한다. CANOE는 네 가지 다양한 작업으로 단답형 질의응답(QA) 데이터를 합성하여 고품질의 검증 가능한 훈련 데이터를 생성하고, 합성된 단답형 QA 데이터에서 파생된 세 가지 맞춤형 규칙 기반 보상을 포함하는 규칙 기반 강화 학습 방법인 Dual-GRPO를 제안한다. Dual-GRPO는 보상 모델을 훈련하기 위한 수동 레이블 선호도 데이터의 필요성을 제거하고, 합성된 단답형 QA 데이터에만 의존할 때 발생하는 단답형 생성 과도 최적화 문제를 방지한다. 실험 결과, CANOE는 11가지 다양한 하위 작업에서 LLM의 충실도를 크게 향상시키며, GPT-4o 및 OpenAI o1과 같은 최첨단 LLM을 능가하는 성능을 보였다.
시사점, 한계점
•
시사점:
◦
인간 주석 없이 LLM의 충실도를 향상시키는 효과적인 프레임워크(CANOE) 제시.
◦
단답형 QA 데이터 합성을 통해 고품질 훈련 데이터 생성 및 활용.
◦
규칙 기반 강화 학습 방법(Dual-GRPO)을 통해 단답형 및 장문형 생성 모두 최적화.