Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Efficient and General-Purpose Few-Shot Misclassification Detection for Vision-Language Models

Created by
  • Haebom

저자

Fanhu Zeng, Zhen Cheng, Fei Zhu, Xu-Yao Zhang

개요

본 논문은 고안전성 및 역동적인 환경에서 신뢰할 수 있는 분류기 예측의 중요성을 강조하며, 오분류에 대한 과신 문제를 해결하기 위해 신뢰도 추정 및 오분류 탐지(MisD) 방법의 필요성을 제기합니다. 기존 방법들이 소규모 데이터셋에 대해서는 성과를 거두었지만, 처음부터 학습해야 하고 대규모 및 지속적으로 변화하는 데이터셋에는 효율적이고 효과적인 MisD 방법이 부족하다는 한계를 지적합니다. 본 논문에서는 비전 언어 모델(VLM)을 활용하여 텍스트 정보를 통해 효율적이고 범용적인 오분류 탐지 프레임워크를 구축하는 방안을 제시합니다. VLM의 강점을 활용하여 FSMisD라는 몇 샷 프롬프트 학습 프레임워크를 제안하여 처음부터 학습하는 것을 피하고 조정 효율성을 높입니다. 오분류 탐지 능력을 향상시키기 위해 적응적 의사 샘플 생성과 새로운 음성 손실 함수를 사용하여 범주 프롬프트를 의사 특징으로부터 멀리함으로써 과신 문제를 완화합니다. 다양한 데이터셋과 도메인 이동을 통해 광범위한 실험을 수행하여 일반화 능력을 검증하며, 본 접근 방식의 효율성, 효과성 및 일반화 성능을 입증합니다.

시사점, 한계점

시사점:
VLM을 활용한 효율적이고 범용적인 오분류 탐지 프레임워크 FSMisD 제시
몇 샷 프롬프트 학습을 통해 처음부터 학습하지 않고도 효율적인 조정 가능
적응적 의사 샘플 생성 및 새로운 음성 손실 함수를 통해 과신 문제 완화
다양한 데이터셋과 도메인 이동에 대한 실험을 통해 우수한 일반화 성능 검증
한계점:
본 연구에서 제시된 방법의 성능이 특정 유형의 데이터셋이나 도메인에 편향될 가능성 존재
VLM의 성능에 의존적이며, VLM 자체의 한계가 FSMisD의 성능에 영향을 미칠 수 있음
실제 대규모 응용 환경에서의 성능 및 안정성에 대한 추가적인 검증 필요
👍