본 논문은 의료, 로봇공학, 금융과 같은 분야에서 의사결정 및 행동의 시점과 내용 모두를 고려해야 하는 문제를 다룹니다. 기존의 정책 효과 추정 방법들은 불규칙적인 시간에 대한 어려움을 겪는데, 시간을 이산화하거나 시점 정책의 효과를 무시하기 때문입니다. 본 논문에서는 시점과 내용 모두에 대한 효과를 추정하는 새로운 심층 Q 알고리즘인 Earliest Disagreement Q-Evaluation (EDQ)를 제시합니다. EDQ는 Transformer와 같은 유연한 시퀀스 모델과 호환되는 Q-함수에 대한 재귀를 사용하며, 표준 가정 하에서 정확한 추정치를 제공합니다. 생존 시간 및 종양 성장 과제에 대한 실험을 통해 접근 방식의 유효성을 검증합니다.