본 논문은 대규모 비전-언어 모델(LVLMs)의 환각 현상 문제를 해결하기 위해, 문맥 추론 프롬프트를 이용한 환각 공격을 통해 LVLMs의 환각 수준을 평가하는 새로운 시각적 질의응답(VQA) 벤치마크인 HALLUCINOGEN을 제안합니다. HALLUCINOGEN은 이미지 내에서 쉽게 인식 가능한 뚜렷한 개체(예: 자동차)와 도메인 지식이나 문맥 추론이 필요한 잠재적 개체(예: 흉부 X선 사진에서 질병 식별)로 시각적 개체를 분류합니다. 이후, 다양한 비전-언어 작업(이미지 내 특정 개체 위치 확인 또는 추론 등)에서 두 유형의 개체에 대한 환각 공격을 설계하여 LVLMs의 환각을 평가합니다. LLaMA-3.2, DeepSeek-V2, Gemini 등 11개의 LVLMs와 두 가지 환각 완화 전략을 여러 데이터셋에서 광범위하게 평가한 결과, 현재 LVLMs는 여전히 환각 공격에 취약함을 보여줍니다.