강화 학습(RL)은 로봇 조작 정책을 만드는 데 널리 사용되지만, 시각-언어-행동(VLA) 모델을 RL로 미세 조정하는 것은 부정확한 가치 추정 및 중간 단계에서 희소한 지도 때문에 불안정할 수 있다. 반면, 모방 학습(IL)은 훈련하기 쉽지만 오프라인 특성으로 인해 종종 성능이 떨어진다. 본 논문에서는 거부 표본 추출을 활용하여 훈련 안정성과 높은 견고성을 모두 달성하는 간단하면서도 효과적인 사후 훈련 방법인 Hi-ORS를 제안한다. Hi-ORS는 온라인 미세 조정을 하는 동안 부정적인 보상을 받은 샘플을 필터링하여 가치 추정을 안정화하고, 보상 가중치 지도를 통해 중간 단계 지도를 제공한다. 체계적인 연구를 위해, 오류 복구 동작 학습에 대한 명시적 지침 역할을 하는 유연한 온라인 인간 중심의 수정을 지원하는 비동기식 추론-훈련 프레임워크를 개발했다. 세 가지 실제 작업과 두 가지 구현 방식에서 Hi-ORS는 pi-base 정책을 1.5시간의 실제 훈련만으로 접촉이 많은 조작을 마스터하도록 미세 조정하여 RL 및 IL 기준선을 성능과 효율성 모두에서 상당한 차이로 능가한다. 특히, 미세 조정된 정책은 복잡한 오류 복구 동작을 안정적으로 실행하여 더 나은 성능을 달성함으로써 강력한 테스트 시간 확장성을 나타낸다.