본 논문은 대규모 언어 모델(LLM)의 안전하지 않고 원치 않는 출력(hallucination) 문제를 해결하기 위해, 다양한 프롬프트 변형을 이용한 hallucination 검출 방법을 제안한다. 기존의 블랙박스 방법들이 프롬프트의 세부 정보 순서를 바꾸거나 적대적 입력을 생성하는 등의 변형을 사용하는 것과 달리, 본 논문에서는 노이즈 추가, 센서 정보 제거 등의 다른 형태의 변형을 통한 hallucination 유발 가능성을 먼저 실험적으로 보여준다. 그리고 Monte-Carlo Tree Search (MCTS)를 활용한 Adaptive Stress Testing (AST) 기반의 새로운 방법을 제시하여, 모델의 불확실성을 높이는 프롬프트를 효율적으로 탐색한다. 이를 통해 오프라인 분석 결과를 활용하여 실시간으로 모델의 신뢰성을 평가하고, LLM의 안전한 사용을 위한 프롬프트 생성 전략을 제시한다.