본 논문은 강화학습(RL)을 이용하여 실제 계획 문제를 해결하는 연구에 대해 다룹니다. 특히, 기존 RL 방법들이 대규모 조합 구조의 행동 공간을 다루는 데 어려움을 겪는다는 점을 지적하며, 이를 해결하기 위해 SEQUOIA라는 새로운 알고리즘을 제안합니다. SEQUOIA는 신경망을 혼합정수계획법(MIP)에 통합하여 각 시간 단계에서 최적의 조합 행동을 선택함으로써 장기적인 보상을 극대화합니다. 본 연구에서는 특히 restless bandits 문제, 더 나아가 각 팔(arm) 간의 행동이 독립적이지 않은 coRMAB (combinatorial restless multi-armed bandit) 문제에 초점을 맞추어, 여러 조합 제약 조건(다중 개입, 경로 제약, 이분 매칭, 용량 제약) 하에서 SEQUOIA의 성능을 실험적으로 검증합니다. 실험 결과, SEQUOIA는 기존 방법들보다 평균 26.4% 향상된 성능을 보였습니다.