본 논문은 AI 어시스턴트의 기만적인 응답을 탐지하기 위해 개발된 기만 탐지 프로브(deception probes)의 실효성과 회피 전략에 대한 저항성을 평가한다. 특히, 프로브의 활성화 정보에 대한 접근 여부에 따라 화이트박스 모니터링과 블랙박스 모니터링을 비교 분석하여, 블랙박스 모니터링 성능 대비 화이트박스 모니터링 성능 향상 정도를 벤치마킹한다. 기존의 기만 탐지 프로브를 통해 약하지만 고무적인 블랙박스 대비 화이트박스 성능 향상을 발견했다.