본 논문은 자율주행 자동차(AV)의 안전 평가를 위한 일반적인 방법으로 등장한 시나리오 기반 테스트의 한계점을 다룬다. 마일 기반 테스트보다 효율적이지만, 중단 규칙, 잔여 위험 추정, 디버깅 효과, 시뮬레이션 충실도가 안전 주장에 미치는 영향에 대한 근본적인 질문이 남아있다. 이에 논문은 엄격한 통계적 기반이 이러한 문제를 해결하고 엄격한 안전 보장을 가능하게 하는 데 필수적이라고 주장한다. AV 테스트와 기존 소프트웨어 테스트 방법 간의 유사점을 바탕으로 공통된 연구 격차와 재사용 가능한 솔루션을 제시하고, 시나리오당 실패 확률(pfs)을 정량화하고 다양한 조건에서 테스트 효과를 평가하기 위한 개념 증명 모델을 제안한다. 분석 결과, 시나리오 기반 테스트와 마일 기반 테스트 중 어느 하나가 다른 하나보다 항상 우수한 것은 아님을 보여주고, 합성 및 실제 세계 테스트 결과의 정렬에 대한 형식적 추론의 예를 제시하여 통계적으로 방어 가능한 시뮬레이션 기반 안전 주장을 지원하기 위한 첫걸음을 내딛는다.