본 논문은 로봇 작업에서 장기간의 관측 및 행동 시퀀스에 대한 추론이 필수적이지만, 데모로부터 효과적인 장기 컨텍스트 정책을 학습하는 것은 여전히 어렵다는 문제를 다룹니다. 컨텍스트 길이가 증가함에 따라 메모리 요구량 증가로 인해 학습 비용이 높아지고, 잘못된 상관관계로 인해 정책 성능이 저하됩니다. 기존 방법들은 컨텍스트 길이를 잘라내어 중요한 정보를 버리는 방식으로 이 문제를 해결하려고 시도합니다. 본 논문에서는 과거 정보의 유지를 명시적으로 규제하는 대안적인 접근 방식을 제시합니다. 모방 학습에서 copycat 문제를 재검토하고 최근 확산 정책에서 반대되는 문제(과거 행동에 과도하게 의존하지 않고 과거와 미래 행동 간의 필수적인 의존성을 포착하지 못하는 것)를 확인합니다. 이를 해결하기 위해 과거 행동 토큰을 미래 행동 토큰과 함께 예측하는 보조 작업인 과거 토큰 예측(PTP)을 도입합니다. 이 규제는 시각적 표현에 대한 의존성을 최소화하면서 정책 헤드의 시간적 모델링을 크게 향상시킵니다. 이러한 관찰 결과를 바탕으로, 짧은 컨텍스트로 시각적 인코더를 사전 훈련하고 캐싱된 장기 컨텍스트 임베딩을 사용하여 정책 헤드를 미세 조정하는 다단계 훈련 전략을 추가로 제시합니다. 이 전략은 PTP의 이점을 유지하면서 메모리 및 계산 오버헤드를 크게 줄입니다. 마지막으로, 추론 중 과거 행동과 일치하는 후보를 점수 매기고 선택할 수 있도록 테스트 시점에 PTP를 자체 검증 메커니즘으로 확장합니다. 4가지 실제 작업과 6가지 시뮬레이션 작업에 대한 실험 결과, 제안된 방법이 장기 컨텍스트 확산 정책의 성능을 3배 향상시키고 정책 훈련 속도를 10배 이상 향상시키는 것을 보여줍니다.