Decision Transformer (DT)는 다양한 분야에서 인상적인 결과를 달성하기 위해 오프라인 데이터셋을 활용하는 현대 강화학습에서 중요한 역할을 합니다. 하지만 DT는 최적으로 수행되기 위해 고품질의 포괄적인 데이터를 필요로 합니다. 실제 응용 프로그램에서는 훈련 데이터 부족과 최적 행동의 부족으로 인해 오프라인 데이터셋에서의 훈련이 어렵고, 최적이 아닌 데이터는 성능을 저해할 수 있습니다. 이를 해결하기 위해 본 논문에서는 반사실적 추론(counterfactual reasoning)에서 영감을 받은 새로운 프레임워크인 Counterfactual Reasoning Decision Transformer (CRDT)를 제안합니다. CRDT는 반사실적 경험을 생성하고 활용하여 알려진 데이터를 넘어 추론하는 DT의 능력을 향상시켜 보이지 않는 시나리오에서 개선된 의사결정을 가능하게 합니다. 제한된 데이터와 변경된 역학을 포함한 Atari 및 D4RL 벤치마크에 대한 실험은 CRDT가 기존 DT 접근 방식보다 성능이 우수함을 보여줍니다. 또한, 반사실적으로 추론함으로써 DT 에이전트는 아키텍처 수정 없이 최적이 아닌 궤적을 결합하는 스티칭(stitching) 능력을 얻을 수 있습니다. 이러한 결과는 반사실적 추론이 강화학습 에이전트의 성능과 일반화 능력을 향상시킬 가능성을 강조합니다.