본 논문은 동적 계획법(DP) 모델링 자동화를 위한 대규모 언어 모델(LLM) 기반의 새로운 방법론을 제시합니다. 기존의 DP 모델링은 전문적인 지식을 필요로 하지만, LLM을 활용하여 이 과정을 자동화할 수 있는 잠재력이 있습니다. 하지만 DP 문제의 확률적 전이와 제한된 훈련 데이터는 기존 LLM 기반 모델의 직접적인 적용을 어렵게 만듭니다. 따라서 본 논문에서는 다양한 DP 문제를 포함하는 벤치마크 DP-Bench를 소개하고, 70억 파라미터의 전문화된 모델인 DPLM을 제시합니다. DPLM은 합성 데이터 생성 파이프라인인 DualReflect를 활용하여 제한된 초기 예제로부터 훈련 데이터를 확장합니다. DualReflect는 다양성을 위한 순방향 생성과 신뢰성을 위한 역방향 생성을 결합하며, 저데이터 환경에서는 역방향 생성이, 대규모 데이터 환경에서는 순방향 생성이 더 효과적임을 보여줍니다. DPLM은 최첨단 LLM인 OpenAI의 o1과 DeepSeek-R1과 비슷한 성능을 달성하며, 어려운 문제에서는 이들을 능가하는 성능을 보입니다.