본 논문은 강화학습(RL)을 이용하여 조합 최적화 문제를 해결하는 새로운 방법을 제시합니다. 특히, 제약된 행동 공간을 활용하여 정규화된 컷 문제를 미리 정의된 템플릿 인스턴스로 유도하는 첫 번째 RL 솔루션을 제안합니다. 교통 네트워크를 예시 도메인으로 사용하여, 쐐기(Wedge)와 링(Ring) 형태의 그래프 분할을 생성하는 쐐기 및 링 변환기를 제시하며, 이는 자연적인 최적 분할에 더 가까울 가능성이 높습니다. 이 방법은 다른 도메인으로 일반화될 수 있는 원리에 기반하여 일반적인 접근 방식을 제공합니다.
시사점, 한계점
•
시사점:
◦
제약된 행동 공간을 활용하여 강화학습으로 조합 최적화 문제를 해결하는 새로운 접근 방식 제시.