본 논문은 자율 에이전트의 바람직하지 않은 행동(작업 실패 포함)의 원인을 에이전트 자체의 결함(모델 또는 정책의 결함)인지, 아니면 주어진 환경 설정 하에서 작업이 본질적으로 불가능한 환경적 오류인지 구분하는 새로운 블랙박스 테스트 기법인 AIProbe를 제시합니다. AIProbe는 라틴 큐브 샘플링을 사용하여 다양한 환경 설정과 작업을 생성하고, 에이전트와 독립적인 탐색 기반 계획자를 사용하여 각 작업을 해결합니다. 에이전트의 성능과 계획자의 해결책을 비교하여 에이전트의 모델 또는 정책 오류, 또는 해결 불가능한 작업 조건 중 어느 쪽이 실패의 원인인지 식별합니다. 다양한 도메인에 대한 평가 결과, AIProbe는 기존 기술보다 전체 및 고유 오류 감지를 크게 개선하여 자율 에이전트의 안정적인 배포에 기여함을 보여줍니다.