본 논문은 머신러닝 모델의 불확실성에 따른 예측 거부(cautious predictions) 메커니즘이 악의적인 기관에 의해 차별이나 부당한 서비스 거부에 악용될 수 있는 새로운 위협을 제기한다. 연구진은 특정 입력 영역에 대한 신뢰도를 의도적으로 낮추어 특정 개인에게 불이익을 주는 'Mirage'라는 공격 기법을 소개하여 이 위협의 실현 가능성을 보여준다. 이와 동시에 Mirage는 모든 데이터 포인트에 걸쳐 높은 예측 성능을 유지한다. 이러한 위협에 대응하기 위해, 연구진은 참조 데이터셋에 대한 보정 지표를 분석하여 인위적으로 억제된 신뢰도를 감지하는 'Confidential Guardian' 프레임워크를 제안한다. 또한, 검증된 추론에 대한 영지식 증명을 사용하여 보고된 신뢰도 점수가 실제로 배포된 모델에서 나온 것임을 보장한다. 이는 제공자가 임의의 모델 신뢰도 값을 조작하는 것을 방지하는 동시에 모델의 독점적인 세부 정보를 보호한다. 결과는 Confidential Guardian이 신중한 예측의 오용을 효과적으로 방지하고, 예측 거부가 악의적인 의도가 아닌 진정한 모델 불확실성을 반영함을 검증 가능하게 보장함을 확인한다.