본 논문은 강화학습(RL)을 이용하여 큰 상태 공간과 시간 지평선을 갖는 실제 계획 문제를 해결하는 데 중점을 둡니다. 기존 RL 방법들의 주요 한계점인 조합적으로 구조화된 큰 행동 공간을 다루는 문제를 해결하기 위해, 신경망을 최적화 문제에 통합하는 최신 연구를 활용하여 SEQUOIA 알고리즘을 제안합니다. SEQUOIA는 각 시간 단계에서 혼합 정수 계획법(MIP)에 Q-네트워크를 통합하여 장기적인 보상을 최적화하는 방식으로 조합적인 행동을 선택합니다. 특히, 다양한 실제 순차적 의사결정 문제를 포착하는 restless bandit 문제에 초점을 맞추고, 각 팔(arm) 간의 행동을 분리할 수 없는 새로운 restless bandit 문제인 coRMAB를 소개합니다. 여러 개의 개입, 경로 제약, 이분 매칭, 용량 제약이 있는 네 가지 새로운 restless bandit 문제에 대해 SEQUOIA를 실험적으로 검증하여, 기존 방법들보다 평균 24.8% 향상된 성능을 보임을 확인했습니다.