Scalability of Reinforcement Learning Methods for Dispatching in Semiconductor Frontend Fabs: A Comparison of Open-Source Models with Real Industry Datasets
Created by
Haebom
저자
Patrick Stockermann, Henning Sudfeld, Alessandro Immordino, Thomas Altenmuller, Marc Wegmann, Martin Gebser, Konstantin Schekotihin, Georg Seidel, Chew Wye Chan, Fei Fei Zhang
개요
본 논문은 반도체 산업의 스케줄링 및 디스패칭 최적화를 위한 강화학습 기반 방법론을 제시합니다. 기존 벤치마크 데이터셋(Minifab, SMT2020)의 한계를 극복하고자 실제 산업 데이터셋을 활용하여 정책 경사(Policy-gradient)와 진화 전략(Evolution Strategies) 기반의 최적화 방법을 비교 분석합니다. 진화 전략 기반 방법이 정책 경사 기반 방법보다 확장성이 훨씬 뛰어나며, 에이전트가 제어할 병목 현상 도구의 선택과 조합이 효율적인 최적화에 중요함을 보여줍니다. 다양한 훈련 데이터셋을 사용하면 다양한 로딩 시나리오와 불규칙적인 장비 고장 패턴에 대한 일반화 성능이 향상됩니다. 계산 비용이 높지만 CPU 코어 수에 따라 확장성이 좋으며, 실제 산업 데이터셋에서 지각률 최대 4%, 처리량 최대 1% 향상을 달성했습니다. Minifab 및 SMT2020 데이터셋에서는 지각률 두 자릿수, 처리량 한 자릿수 향상을 확인했습니다.