Simone Lionetti, Fabian Groger, Philippe Gottfrois, Alvaro Gonzalez-Jimenez, Ludovic Amruthalingam, Alexander A. Navarini, Marc Pouly
개요
임상 데이터셋 라벨은 주석가 간의 불일치와 사례별 균일하지 않은 신뢰도로 인해 불확실성을 띄는 경우가 많다. 다수결 투표와 같은 일반적인 집계 절차는 이러한 변동성을 가린다. 의료 영상 벤치마크에 대한 간단한 실험에서 이진 라벨의 신뢰도를 고려하는 것이 모델 순위에 큰 영향을 미친다. 따라서, 본 논문은 머신러닝 평가에서 분포를 직접 다루는 확률적 메트릭을 사용하여 주석 불확실성을 명시적으로 고려해야 한다고 주장한다. 이러한 메트릭은 단순한 계산, 주관적인 신뢰도 등급 또는 확률적 응답 모델로 모델링된 주석 생성 프로세스와 독립적으로 적용할 수 있다. 또한 모델 점수로 예를 정렬하면 폐쇄형 표현식이 선형 시간 구현을 가지므로 계산 비용이 적다. 따라서 본 논문은 데이터셋에 대한 원시 주석을 공개하고, 임상 데이터를 더 잘 반영할 수 있도록 불확실성을 고려하는 평가를 채택할 것을 권장한다.