본 논문은 복합적인 행동 공간의 조합적 구조로 인해 발생하는 기존 강화 학습 알고리즘의 한계를 해결하기 위해, 변환기를 이용한 하위 행동 상호 작용 네트워크(SAINT)를 제시한다. SAINT는 다중 구성 요소 행동을 순서가 없는 집합으로 표현하고, 전역 상태를 조건으로 하는 자기 주의 메커니즘을 통해 그들의 의존성을 모델링한다. 순열 불변성, 샘플 효율성, 표준 정책 최적화 알고리즘과의 호환성을 갖는 SAINT는 15개의 서로 다른 조합 환경(약 1700만 개의 조인트 액션을 가진 환경 포함)에서 기존 방법들을 능가하는 성능을 보였다.