본 논문은 오프라인 목표 조건 강화 학습(GCRL)에서 장기간 과제 수행의 어려움을 해결하기 위한 새로운 방법인 OTA(Option-aware Temporally Abstracted value learning)를 제시합니다. 기존의 계층적 정책 구조를 사용하는 방법(예: HIQL)조차도 장기간 과제에서 어려움을 겪는다는 점을 지적하며, 그 원인을 상위 정책의 적절한 하위 목표 생성 실패와 장기간 학습 시 부정확한 이점 신호 발생으로 분석합니다. OTA는 시간적 추상화를 시간 차이 학습 과정에 통합하여 효과적인 지평선 길이를 줄이고, 더 나은 이점 추정을 가능하게 함으로써 이 문제를 해결합니다. OGBench 벤치마크의 복잡한 과제(미로 탐색, 시각적 로봇 조작 등)에서 OTA의 효과를 실험적으로 입증합니다.