다양한 멀티모달 입력 방식 때문에 멀티모달 대규모 언어 모델(MLLM)의 예측에 대한 정확한 신뢰도 평가가 어렵다. 본 논문은 MLLM을 위한 멀티모달 입력 샘플링 기술인 FESTA(Functionally Equivalent Sampling for Trust Assessment)를 제안한다. FESTA는 등가 및 보완적 입력 샘플링을 기반으로 불확실성 측정을 생성한다. 이는 모델의 일관성(등가 샘플)과 민감성(보완적 샘플)을 파악하기 위해 입력 공간을 확장하는 작업 보존 샘플링 접근 방식이다. FESTA는 모델의 입력-출력 접근(블랙박스)만을 사용하며, 정답 데이터는 필요하지 않다(비지도 학습). 시각 및 오디오 추론 작업에서 다양한 기존 멀티모달 LLM으로 실험을 수행했다. 제안된 FESTA 불확실성 추정치는 오경고 감지 시 AUROC 지표를 기준으로 선택적 예측 성능에서 유의미한 향상(시각-LLM의 경우 33.3%, 오디오-LLM의 경우 29.6% 상대적 향상)을 달성했다. 코드 구현은 공개되어 있다.