Bài báo này đề cập đến Limitations mới nổi của thử nghiệm dựa trên kịch bản như một phương pháp chung để đánh giá an toàn cho xe tự hành (AV). Mặc dù hiệu quả hơn thử nghiệm dựa trên dặm, vẫn còn những câu hỏi cơ bản về quy tắc dừng, ước tính rủi ro còn lại, hiệu quả gỡ lỗi và tác động của độ trung thực mô phỏng đối với các tuyên bố về an toàn. Chúng tôi lập luận rằng một nền tảng thống kê nghiêm ngặt là cần thiết để giải quyết những vấn đề này và cho phép đảm bảo an toàn nghiêm ngặt. Dựa trên những điểm tương đồng giữa thử nghiệm AV và các phương pháp thử nghiệm phần mềm truyền thống, chúng tôi giải quyết các khoảng trống nghiên cứu phổ biến và đề xuất các giải pháp có thể tái sử dụng, đồng thời đề xuất một mô hình chứng minh khái niệm để định lượng xác suất hỏng hóc (pfs) cho mỗi kịch bản và đánh giá hiệu quả của thử nghiệm trong các điều kiện khác nhau. Phân tích của chúng tôi chứng minh rằng không phải thử nghiệm dựa trên kịch bản hay thử nghiệm dựa trên dặm nào cũng luôn vượt trội hơn phương pháp kia và chúng tôi cung cấp một ví dụ về lý luận chính thức về sự liên kết giữa kết quả thử nghiệm tổng hợp và kết quả thử nghiệm thực tế, thực hiện bước đầu tiên hướng tới việc hỗ trợ các tuyên bố về an toàn dựa trên mô phỏng có thể bảo vệ về mặt thống kê.