본 논문은 기계학습 기반 의사결정(예: 검사 지시, 예방적 구금 결정)에서 사용되는 확률적 예측의 이진 분류 평가 프레임워크에 대한 문제점을 제기한다. 기존 평가는 독립적 의사결정 지표(예: 정확도), 상위 K 지표(예: Precision@K), 고정 임계값 또는 임계값과 무관한 측정(예: AUC-ROC) 중 어떤 것을 우선시할지에 초점을 맞추는 경향이 있다. 하지만 논문에서는 의사결정 이론에서 오랫동안 주장되어 온 결과주의적 관점에서 볼 때, Brier 점수와 Log 손실과 같이 다양한 임계값의 혼합을 사용하여 독립적인 의사결정을 지원하는 평가가 더 적합하다고 주장한다. 실증 분석을 통해 ICML, FAccT, CHIL과 같은 주요 학회에서 상위 K 지표나 고정 임계값을 선호하는 경향을 보여주고, 이러한 간극을 해소하기 위해 의사결정 이론적 프레임워크를 사용하여 평가 지표와 최적 사용 사례를 매핑하고, Brier 점수의 광범위한 채택을 촉진하기 위한 Python 패키지인 briertools를 소개한다. 또한, Brier 점수와 의사결정 곡선 분석 간의 새로운 이론적 연결을 밝혀냄으로써 (Assel, et al. 2017)의 적절한 점수 규칙의 임상적 유용성에 대한 오랜 비판에 답한다.