본 논문은 트랜스포머 기반의 모델 기반 강화 학습(model-based RL)에서 장기간 의존성 모델링에 효율적인 구조적 유도 사전 지식을 자기-주의(self-attention) 메커니즘에 통합하는 방법을 제시합니다. RL 궤적의 희소성과 보상 기반 특성을 고려하여, 특정 작업에 특화된 윈도우를 사용하는 메모리 길이 사전 지식과 과거 상태-행동 쌍에 대한 부드러운 가우시안 가중치를 학습하는 분포 사전 지식을 제안합니다. 이러한 메커니즘을 UniZero에 통합하여 Atari 100k 벤치마크에서 실험한 결과, 가우시안 사전 지식이 유용한 전환에 주의를 분산시켜 효율성을 크게 향상시켰으며, 특히 가우시안 주의는 UniZero보다 평균 인간 정규화 점수에서 77% 상대적 향상을 보였습니다.