본 논문은 최신 비전-언어 모델(VLMs)과 다중 모달 대규모 언어 모델(MLLMs)의 생체 인식 및 분석 분야 적용 가능성을 평가하는 포괄적인 벤치마크 연구를 제시합니다. 41개의 VLMs를 활용하여 얼굴 및 홍채 모달리티를 기반으로 한 6가지 생체 인식 과제(얼굴 인증, 소프트 생체 인식 속성 예측, 홍채 인식, 제시 공격 탐지, 얼굴 조작 탐지)에서 zero-shot 및 few-shot 성능을 평가했습니다. 실험 결과, 사전 훈련된 모델의 임베딩을 다양한 생체 인식 작업에 적용할 수 있으며, LFW 데이터셋에서 얼굴 인증의 경우 FMR 1%에서 96.77%의 TMR을 달성했고, IITD-R-Full 데이터셋에서 홍채 인식의 경우 FMR 1%에서 97.55%의 TMR을 달성하는 등 상당한 성능을 보였습니다. 간단한 분류기 헤드를 추가하여 DeepFake 탐지, 제시 공격 탐지, 성별 및 인종과 같은 소프트 생체 인식 속성 추출도 비교적 높은 정확도로 수행할 수 있음을 보였습니다. 이는 사전 훈련된 모델이 인공 일반 지능(AGI)의 장기적 비전 달성에 기여할 수 있음을 시사합니다.