본 논문은 비용이 많이 드는 주석이 달린 다중 모달 대규모 언어 모델(MLLM) 평가 벤치마크의 한계를 극복하기 위해, 단일 모달 데이터만을 사용하여 모달 간 의미적 일관성을 측정하고 환각 경향을 역으로 평가하는 새로운 주석 없는 평가 방법인 GenCeption을 제시한다. GenCeption은 DrawCeption 게임에서 영감을 받아 비텍스트 샘플로 시작하여 반복적인 설명 및 생성 단계를 거치며, 반복 간 의미적 이동을 GC@T 지표로 정량화한다. 본 논문에서는 시각적 대규모 언어 모델(VLLM)에 대한 GenCeption의 구현과 검증에 초점을 맞추고, GenCeption 방법을 기반으로 VLLM을 평가하기 위한 MMECeption 벤치마크를 구축하여 여러 인기 VLLM과 인간 평가자의 성능을 비교한다. 실험 결과 GenCeption의 효과를 검증하고 기존 VLLM 벤치마크와의 강한 상관관계를 보여준다.