본 논문은 BLEU, CIDEr, VQA score, SigLIP-2, CLIPScore와 같은 기존 평가 지표가 특정 도메인 또는 상황에서 의미적, 구조적 정확도를 제대로 포착하지 못하는 문제를 해결하기 위해, 대규모 언어 모델, 추론, 지식 기반 매핑, 비전-언어 모델을 결합한 Physics-Constrained Multimodal Data Evaluation (PCMDE) 지표를 제안한다. PCMDE는 객체 감지 및 VLM을 통한 공간적, 의미적 특징 추출, 신뢰도 가중 요소 융합을 통한 요소 수준 검증, 그리고 대규모 언어 모델을 활용한 물리 기반 추론을 통해 구조적, 관계적 제약(정렬, 위치, 일관성 등)을 적용하는 세 단계의 아키텍처로 구성된다.