본 논문은 기존 수요 정보가 없는 신제품 재고 관리를 위한 새로운 강화 학습 알고리즘을 제안한다. Dyna-Q 구조를 기반으로 모델 기반 및 모델 자유 접근 방식을 균형 있게 활용하며, Dyna-Q의 학습 과정을 가속화하고 모델 기반 피드백으로 인한 모델 불일치를 완화한다. 전이 학습 개념을 활용하여 유사 제품의 수요 데이터를 활용, 초기 학습 안정화 및 최적 정책 추정의 분산을 줄인다. 제과점 재고 관리 실제 데이터를 활용한 사례 연구를 통해 알고리즘의 유효성을 검증하였으며, 조정된 Dyna-Q는 Q-learning에 비해 평균 일일 비용을 최대 23.7% 절감하고, 기존 Dyna-Q에 비해 동일 기간 내 학습 시간을 최대 77.5% 단축시켰다. 전이 학습을 적용한 조정된 Dyna-Q는 30일 테스트 기간 동안 모든 비교 알고리즘 중 가장 낮은 총 비용, 총 비용 분산 및 상대적으로 낮은 부족률을 보였다.