본 논문은 강화학습에서 사전 학습된 기초 모델의 제로샷 일반화 능력을 향상시키는 새로운 방법인 상태-행동 증류(SAD)를 제안합니다. 기존의 In-context RL (ICRL) 알고리즘들은 사전 학습 데이터셋에 최적 정책이나 잘 훈련된 행동 정책을 요구하여 실세계 적용에 어려움이 있었는데, SAD는 무작위 정책만을 사용하여 효과적인 사전 학습 데이터셋을 생성합니다. SAD는 신뢰 수평선 내에서 무작위 정책을 사용하여 우수한 상태-행동 쌍을 추출하고, 이를 기반으로 자기회귀 지도 학습 방식을 통해 사전 학습을 수행합니다. 실험 결과, SAD는 기존 최고 성능 알고리즘보다 오프라인 평가에서 236.3%, 온라인 평가에서 135.2% 향상된 성능을 보였습니다.