Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation

Created by
  • Haebom

저자

Xinzhuo Li, Adheesh Juvekar, Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Ismini Lourentzou

개요

본 논문은 시각-언어 분할(vision-language segmentation) 모델의 환각(hallucination) 문제를 해결하기 위해, 반사실적 시각 추론(counterfactual visual reasoning) 관점에서 환각을 평가하는 새로운 벤치마크인 HalluSegBench를 제안합니다. HalluSegBench는 281개의 고유한 객체 클래스에 걸쳐 1340개의 반사실적 인스턴스 쌍으로 구성된 새로운 데이터셋과, 시각적으로 일관된 장면 편집 하에서 환각 민감도를 정량화하는 새로운 지표들을 포함합니다. 최첨단 시각-언어 분할 모델에 대한 HalluSegBench 실험 결과, 레이블 기반 환각보다 시각 기반 환각이 훨씬 더 흔하며, 모델이 종종 잘못된 분할을 고집하는 경향이 있음을 보여줍니다. 이는 기반 신뢰도(grounding fidelity)를 진단하기 위해 반사실적 추론이 필요함을 강조합니다.

시사점, 한계점

시사점:
시각-언어 분할 모델의 환각 문제를 해결하기 위한 새로운 벤치마크인 HalluSegBench 제시.
반사실적 시각 추론을 통해 시각 기반 환각을 효과적으로 평가 가능.
시각 기반 환각이 레이블 기반 환각보다 더 심각한 문제임을 밝힘.
모델의 기반 신뢰도 향상을 위한 연구 방향 제시.
한계점:
HalluSegBench 데이터셋의 규모가 상대적으로 작을 수 있음.
제시된 지표들이 모든 유형의 환각을 완벽하게 포착하지 못할 가능성 존재.
특정 유형의 시각-언어 분할 모델에 편향된 결과일 수 있음.
👍