본 논문은 대규모 언어 모델(LLM)이 생성하는 환각(hallucination)을 자동으로 탐지하는 것이 가능한지 여부를 이론적 틀을 통해 분석합니다. Gold-Angluin 프레임워크를 언어 생성에 적용하여, 알고리즘이 알려지지 않은 대상 언어 $K$의 예시로 학습하고 LLM에 접근하여 LLM의 출력이 정확한지 또는 환각인지를 신뢰성 있게 판별할 수 있는지 조사합니다. 환각 탐지와 언어 식별의 동등성을 증명하고, 대상 언어의 정확한 예시만으로 학습된 탐지기의 경우 대부분의 언어 집합에서 환각 탐지가 근본적으로 불가능함을 보입니다. 하지만 전문가가 라벨링한 피드백(정확한 문장과 명시적으로 잘못된 문장)을 사용하면 모든 가산 가능한 언어 집합에 대해 자동 환각 탐지가 가능해짐을 보여줍니다. 결론적으로 전문가가 라벨링한 예시가 환각 탐지기를 학습하는 데 필수적임을 강조하며, RLHF와 같은 피드백 기반 방법의 중요성을 이론적으로 뒷받침합니다.