본 논문은 Visual Question Answering (VQA) 및 Agentic AI 분야에서 AI 시스템의 응답에 대한 신뢰도와 실제 정답률 간의 일치도인 보정(calibration) 문제를 다룬다. 특히, 시각-언어 모델(VLM) 기반의 VQA 시스템이 높은 정확도를 보이지만, 신뢰도 추정의 신뢰성이 충분히 연구되지 않았고, 과신하는 경향이 있음을 지적한다. 이를 해결하기 위해, 다양한 전문 VLM이 후보 답을 생성하고, 일반 에이전트가 이를 비평하고 정제하는 2단계 상호 작용을 통해 신뢰도 추정을 개선하는 토론 기반 다중 에이전트 프레임워크인 AlignVQA를 제안한다. 또한, 각 에이전트의 신뢰도 추정의 정확도를 높이기 위해, 보정 오류의 상한을 최소화하는 새로운 미분 가능한 보정 인식 손실 함수인 aligncal을 도입한다.