The Illusion of AI Expertise Under Uncertainty: Navigating Elusive Ground Truth via a Probabilistic Paradigm
Created by
Haebom
Category
Empty
저자
Aparna Elangovan, Lei Xu, Mahsa Elyasi, Ismail Akdulum, Mehmet Aksakal, Enes Gurun, Brian Hur, Saab Mansour, Ravid Shwartz Ziv, Karin Verspoor, Dan Roth
💡 개요
본 논문은 AI 시스템, 특히 LLM과 Vision 모델의 성능 평가에서 간과되는 '실제 정답(ground truth)의 불확실성' 문제를 제기합니다. 전문가의 불확실한 정답이 AI의 성능 평가에 미치는 영향을 이론적으로 설명하며, 불확실성이 높을수록 전문가와 일반 평가자 간의 성능 차이가 희미해지고, 모델 간 성능 비교가 왜곡될 수 있음을 보여줍니다. 이를 해결하기 위해 불확실성을 고려한 '기대 정확도(expected accuracy)'와 '기대 F1(expected F1)' 개념을 제안합니다.
🔑 시사점 및 한계
•
AI 성능 평가 시 실제 정답의 불확실성을 반드시 고려해야 하며, 불확실성이 높으면 전문가와 비전문가 간 성능 차이가 과대평가될 수 있습니다.
•
실제 정답 전문가들의 동의율(agreement rate)을 기반으로 성능 평가 결과를 계층화(stratification)하는 것이 모델 성능 비교의 신뢰도를 높일 수 있습니다.
•
특히 전체 성능이 80% 이하로 떨어질 경우, 불확실성이라는 교란 요인을 완화하기 위해 계층화된 평가가 중요합니다.
•
제안된 방법론은 다양한 분야의 AI 시스템 성능 평가에 적용될 수 있으나, 실제 정답의 불확실성을 측정하는 데 있어 전문가 합의율을 어떻게 효과적으로 도출하고 해석할지에 대한 추가적인 연구가 필요합니다.