Transformer 모델은 자연어 처리, 컴퓨터 비전, 순차적 의사 결정 등 다양한 분야에서 뛰어난 문맥 내 학습(ICL) 능력을 보여주었습니다. 강화 학습에서 ICL은 학습을 지도 학습 문제로 재구성하여 파라미터 업데이트 없이도 작업 적응을 가능하게 합니다. 순차적 의사 결정을 위해 Transformer를 활용하는 이전 연구를 바탕으로, 본 논문에서는 Heuristic Transformer (HT)를 제안합니다. 이는 문맥 내 데이터셋에 보상에 대한 신념 분포를 추가하여 더 나은 의사 결정을 달성하는 문맥 내 강화 학습(ICRL) 접근 방식입니다. Variational Auto-Encoder (VAE)를 사용하여 보상에 대한 사후 분포를 나타내는 저차원 확률 변수를 학습시키고, 이를 문맥 내 데이터셋 및 쿼리 상태와 함께 Transformer 정책에 대한 프롬프트로 통합합니다. Darkroom, Miniworld, MuJoCo 환경에서 HT의 성능을 평가한 결과, 효과성과 일반화 측면에서 비교 가능한 기준선을 일관되게 능가하는 것을 보여주었습니다. 본 연구는 신념 기반 보강과 Transformer 기반 의사 결정 간의 격차를 해소하는 유망한 방향을 제시합니다.