본 논문은 강화학습(RL)을 이용하여 조합 최적화 문제를 해결하는 새로운 방법을 제시합니다. 특히, 정규화된 컷 문제에 대해 사전 정의된 템플릿 인스턴스를 목표로 하는 제약된 행동 공간을 활용하는 RL 기반 솔루션을 최초로 제안합니다. 교통 네트워크를 예시 도메인으로 사용하여, 쐐기(Wedge)와 링(Ring) 형태의 그래프 분할을 생성하는 Wedge and Ring Transformer를 개발했습니다. 이 트랜스포머는 자연스러운 최적 분할에 더 가까운 결과를 산출하며, 제안된 방법은 다른 도메인에도 일반화될 수 있는 원리에 기반합니다. 기존 RL 기반 조합 최적화 방법의 한계인 도메인 지식 통합 문제에 대해, 제약된 행동 공간을 통해 해결책을 제시하고 있습니다.
시사점, 한계점
•
시사점:
◦
제약된 행동 공간을 활용하여 RL 기반 조합 최적화 문제에 도메인 지식을 효과적으로 통합하는 새로운 방법 제시.
◦
교통 네트워크와 같은 특정 도메인에서 더 나은 성능을 보이는 그래프 분할 솔루션 제공.
◦
제안된 방법은 다른 도메인으로의 일반화 가능성을 갖고 있음.
•
한계점:
◦
현재는 교통 네트워크라는 특정 도메인에 국한된 예시만 제시. 다른 도메인으로의 적용 및 일반화 성능에 대한 추가적인 연구 필요.
◦
제약된 행동 공간의 설계가 도메인 지식에 크게 의존적이며, 일반적인 설계 원칙 및 자동화 방법에 대한 추가 연구 필요.