본 논문은 오프라인 강화 학습(RL)의 취약성을 해결하기 위해 Sharpness-Aware Minimization (SAM)을 플러그 앤 플레이 옵티마이저로 적용하는 방법을 제시한다. 특히, 데이터 부패가 발생하는 환경에서 SAM이 모델의 일반화 성능을 향상시키는 데 기여함을 보인다. IQL과 RIQL과 같은 강력한 오프라인 RL 알고리즘에 SAM을 통합하여 D4RL 벤치마크에서 평가한 결과, 기존 알고리즘보다 일관되고 유의미한 성능 향상을 보였다.