본 논문은 대규모 언어 모델(LLM)의 신뢰성을 높이기 위해, 맥락에 충실한 응답을 생성하도록 하는 새로운 프레임워크 CANOE를 제안한다. CANOE는 인간의 주석 없이 다양한 단기 질의응답(QA) 데이터를 합성하여 고품질의 검증 가능한 훈련 데이터를 생성한다. 또한, 합성된 단기 QA 데이터에서 도출된 세 가지 규칙 기반 보상을 포함하는 Dual-GRPO라는 규칙 기반 강화 학습 방법을 제안하여 단기 및 장기 응답 생성을 동시에 최적화한다. Dual-GRPO는 보상 모델 훈련을 위한 수동 레이블링 및 단기 생성 과최적화 문제를 해결한다. 실험 결과, CANOE는 11가지 다른 작업에서 LLM의 충실도를 크게 향상시키며, GPT-4o 및 OpenAI o1과 같은 최첨단 LLM을 능가하는 성능을 보였다.
시사점, 한계점
•
시사점:
◦
인간 주석 없이 LLM의 충실도를 향상시키는 효과적인 프레임워크(CANOE) 제시.
◦
규칙 기반 강화 학습을 통해 단기 및 장기 응답 생성을 효율적으로 최적화.
◦
최첨단 LLM을 능가하는 충실도 향상 성능을 입증.
◦
다양한 하류 작업에서의 범용성을 보여줌.
•
한계점:
◦
합성 데이터의 품질에 대한 의존성. 합성 데이터의 다양성과 질이 CANOE 성능에 영향을 미칠 수 있음.
◦
규칙 기반 보상의 일반화 가능성. 특정 작업에 최적화된 규칙이 다른 작업에 적용될 때 성능 저하 가능성 존재.
◦
제안된 방법의 확장성. 더욱 대규모의 데이터나 복잡한 작업에 대한 적용 가능성 검증 필요.