본 논문은 기계 학습 모델에 대한 신뢰를 높이기 위해 고안된 설명 가능성(explainability)이, 이해관계가 상충하는 적대적 환경에서는 조작될 가능성이 높다는 문제를 다룹니다. 기존 설명 가능성 방법론이 이러한 적대적 환경에서 효과적이지 못하다는 점을 지적하며, 제로-지식 증명(Zero-Knowledge Proofs, ZKPs)을 활용하여 적대적 환경에서도 작동하는 설명 가능성 방법론을 제시합니다. 특히, 인기있는 설명 가능성 알고리즘인 LIME을 ZKP에 적합하도록 수정하고, 신경망과 랜덤 포레스트 모델에 대한 성능을 평가합니다. 소스 코드는 공개적으로 제공됩니다.