본 논문은 자연어 설명으로부터 최적화 모델을 자동으로 생성하는 과정에서 발생하는 LLMs의 hallucination 문제를 해결하기 위해 Solver-Informed Reinforcement Learning (SIRL) 프레임워크를 제안합니다. SIRL은 외부 최적화 솔버를 보상 메커니즘으로 활용하여 LLMs가 생성한 최적화 모델의 정확성을 크게 향상시킵니다. 솔버는 생성된 코드와 LP 파일의 구문, 실행 가능성, 해의 질 등을 정확하게 평가하여 RL 학습에 필요한 피드백을 제공합니다. 또한, 이 자동 검증 과정을 통해 고품질 학습 데이터를 생성하는 instance-enhanced self-consistency 기법을 사용합니다. 다양한 공개 벤치마크 실험 결과, SIRL은 기존 방법들보다 훨씬 우수한 성능을 보이며 정확하고 실행 가능한 최적화 모델을 생성하는 것을 보여줍니다.