LLM 추론 수요 증가에 따라, 추론 과정의 정확성 검증이 중요해짐. 동일한 추론을 두 번 실행해도 미세한 수치적 노이즈로 인해 결과가 달라져, 정당한 변동과 문제점을 구분하기 어려움. 본 논문은 이러한 문제를 해결하기 위해, 신뢰할 수 있는 참조 구현을 기반으로 생성된 토큰과 동일한 랜덤 시드에 의해 생성된 예측을 비교하는 Token-DiFR (Token-Divergence-From-Reference) 방법을 제안. Token-DiFR은 샘플링 오류, 시뮬레이션된 버그 및 모델 양자화를 효과적으로 식별하며, 4-bit 양자화를 300개 토큰 이내에서 AUC > 0.999로 감지. 또한, 샘플 효율적인 순방향 패스 검증을 위해, 활성화를 압축된 지문으로 변환하는 Activation-DiFR을 제안. Activation-DiFR은 2개의 출력 토큰만으로 4-bit 양자화를 AUC > 0.999로 감지하고, 기존 방법에 비해 통신 오버헤드를 25-75% 감소. vLLM과의 오픈 소스 통합을 통해 실용적인 검증 가능한 추론 배포를 가속화.