본 논문은 강화 학습에서 다중 작업을 결합하여 실행 가능한 시퀀스를 형성하는 작업 구성의 어려움을 다룹니다. 복잡한 행동을 학습하는 로봇 시스템 개발에 있어 작업 (분)해는 중요한 요소이지만, 차원의 높음, 보상의 부족, 그리고 작업 구성 후 시스템의 견고성 부재 등의 어려움이 존재합니다. 이를 극복하기 위해 본 논문은 범주 이론이라는 수학적 틀을 강화 학습의 작업 구성에 적용합니다. 범주 이론의 관점에서 마르코프 의사 결정 과정(MDP)의 범주적 특성을 이용하여 복잡한 작업을 관리 가능한 하위 작업으로 분해함으로써 차원 감소, 보다 다루기 쉬운 보상 구조, 그리고 시스템의 견고성 향상을 가능하게 합니다. 실험 결과는 복잡한 로봇 팔 작업 학습 시 기술 축소, 재사용 및 재활용을 가능하게 함으로써 강화 학습에 대한 범주 이론의 효용성을 보여줍니다.