본 논문은 스마트 제조의 발전에 따라 기존 중앙 집중식 스케줄링 및 유연성이 부족한 생산 라인의 한계를 극복하기 위해, 특히 동적 생산 수요에 대응하기 위해 고안된 심층 강화 학습 알고리즘인 MPD-PPO (Multi-path Differentiated Clipping Proximal Policy Optimization)를 소개한다. MPD-PPO는 고차원, 다중 목표 최적화 문제를 해결하기 위해 설계되었으며, 다중 분기 정책 아키텍처와 차별화된 그래디언트 클리핑 제약 조건을 사용하여 안정적이고 효율적인 고차원 정책 업데이트를 보장한다. 고무 타이어 필름 생산의 폭 및 두께 제어 실험을 통해 MPD-PPO는 튜닝 정확도와 운영 효율성 모두에서 상당한 개선을 보였다.