본 논문은 대규모 이미지-텍스트 및 비디오-텍스트 데이터셋으로 사전 훈련된 비전 언어 모델(VLMs)의 빠른 도입에 따라, 사용자가 이러한 시스템을 언제 신뢰해야 하는지에 대한 보호 및 정보 제공의 필요성을 강조합니다. 다양한 인지 과학적 능력, 협업 방식 및 에이전트 행동을 포함하는 다학제적 분류 체계를 통해 사용자-VLM 상호 작용에서의 신뢰 역학에 대한 연구를 검토합니다. 잠재적 VLM 사용자들과의 워크숍에서 얻은 문헌 통찰력과 결과를 바탕으로 미래 VLM 신뢰 연구에 대한 예비 요구 사항을 제시합니다.
시사점, 한계점
•
시사점: VLM 신뢰에 대한 다학제적 이해를 제공하고, 미래 연구를 위한 핵심 요구 사항을 제시하여 사용자 보호 및 정보 제공을 위한 기반을 마련합니다. VLM 사용자와의 워크샵을 통해 현실적인 사용자 요구사항을 반영합니다.
•
한계점: 아직 초기 단계의 연구 검토이므로, VLM 신뢰에 대한 포괄적인 이해를 제공하기에는 한계가 있습니다. 구체적인 VLM 신뢰 향상 방안이나 기술적인 해결책 제시보다는 연구 방향 제시에 초점이 맞춰져 있습니다. 워크샵 참가자의 대표성에 대한 검토가 필요합니다.