스마트 제조의 도입은 타이어 산업에서 전통적인 집중식 스케줄링 및 유연성이 부족한 생산 라인 설정의 한계를 해결하고 있다. 특히, 동적인 생산 요구에 대처하는 측면에서 그렇다. 최신 타이어 제조 시스템은 복잡한 네트워크를 형성하며, 이는 촘촘하게 연결된 하위 시스템, 뚜렷한 비선형적 상호작용 및 발생적 역학을 특징으로 한다. 이러한 복잡성은 여러 하위 시스템의 효과적인 조정을 어렵게 만든다. 이 논문에서는 이 분야의 고차원, 다중 목표 최적화 문제를 위해 딥 강화 학습 알고리즘인 MPD-PPO(Multi-path Differentiated Clipping Proximal Policy Optimization)를 제안한다. MPD-PPO는 안정적이고 효율적인 고차원 정책 업데이트를 보장하기 위해 차별화된 그래디언트 클리핑 제약 조건이 있는 다중 분기 정책 아키텍처를 사용한다. 타이어 필름 생산에서 폭과 두께 제어에 대한 실험을 통해 MPD-PPO는 튜닝 정확도와 운영 효율성 모두에서 상당한 개선을 보여주었다. 이 프레임워크는 고차원성, 다중 목표 트레이드 오프 및 동적 적응과 같은 주요 과제를 성공적으로 해결하여 타이어 제조의 실시간 산업 배포를 위한 향상된 성능과 생산 안정성을 제공한다.