본 논문은 대규모 언어 모델(LLM)에 대한 API 접근이 주요 인터페이스가 됨에 따라, 사용자들이 배포된 모델에 대한 투명성이 부족한 블랙박스 시스템과 상호 작용하는 문제를 다룹니다. API 제공자는 비용 절감이나 악의적인 모델 동작 변경을 위해 양자화 또는 미세 조정된 변형 모델을 은밀하게 제공할 수 있으며, 이는 성능 저하 및 안전성 저해로 이어질 수 있습니다. 본 논문에서는 블랙박스 LLM의 동작이 로컬에 배포된 진짜 모델과 동일한지를 검증하는 순위 기반 균일성 검정법을 제안합니다. 이 방법은 정확하고, 쿼리 효율이 높으며, 감지 가능한 쿼리 패턴을 피하여, 테스트 시도 감지를 통해 응답을 재경로하거나 혼합하는 적대적 제공자에 대해 강력합니다. 양자화, 악의적인 미세 조정, 탈옥 프롬프트 및 전체 모델 대체를 포함한 다양한 위협 시나리오에서 평가한 결과, 제한된 쿼리 예산 하에서 기존 방법보다 우수한 통계적 검정력을 달성함을 보여줍니다.