본 논문은 특정 도메인 지식에 대한 대규모 언어 모델(LLM)의 제한된 성능 문제를 해결하기 위해 제안된 강화 학습 기반 방법론인 "Reinforcement Learning from Augmented Generation (RLAG)"에 대해 설명한다. RLAG는 생성된 출력을 기반으로 모델을 반복적으로 최적화하며, 중요한 도메인 지식을 효과적으로 임베딩한다. 생성된 출력 중 가장 높은 로그 확률을 가진 것을 선택하고, 세 가지 맞춤형 보상 지표를 사용하여 최적화 과정을 안내한다. 의료, 법률, 천문학 및 시사 관련 데이터셋에 대한 실험을 통해 RLAG가 기존 방법론보다 우수한 성능을 보임을 입증한다.