본 논문은 해상 운송 및 터미널 운영의 핵심 요소인 컨테이너 적재 계획(CSPP)에 대한 연구를 다루며, 강화 학습(RL) 알고리즘을 CSPP에 적용하여 다양한 알고리즘 간의 체계적인 성능 비교를 수행한다. CSPP의 기본 특징을 포착하는 Gym 환경을 개발하고, 이를 크레인 스케줄링을 포함하도록 확장하여, DQN, QR-DQN, A2C, PPO, TRPO 등 5가지 RL 알고리즘을 복잡성이 다른 여러 시나리오에서 평가한다.
시사점, 한계점
•
다양한 RL 알고리즘의 CSPP 문제 해결 성능을 비교하는 벤치마크를 제공한다.
•
크레인 스케줄링을 포함하는 재사용 가능한 Gym 환경을 제공하여 향후 연구 및 실제 적용을 위한 기반을 마련한다.
•
알고리즘 선택 및 문제 설정의 중요성을 강조하며, 복잡성이 증가함에 따라 알고리즘 간 성능 차이가 나타남을 확인한다.