본 논문은 8개 계열의 62개 대규모 언어 모델(LLM)을 대상으로, 모델이 자체 생성한 설명이 내부 의사결정 과정에 얼마나 충실한지를 포괄적으로 분석합니다. 기존 연구보다 훨씬 많은 모델을 대상으로 반사실적 검증을 수행하며, 토큰 확률을 필요로 하지 않는 단순화된 변형인 phi-CCT를 제시합니다. 분석 결과, 모델의 크기가 클수록 충실도가 높아지는 경향을 보였으나, 지시어 튜닝 및 인간 모방 설명에서는 충실도 차이가 설명의 상세함(verbosity)에 기인하는 경우가 많다는 것을 발견했습니다. 지시어 튜닝과 프롬프팅은 이러한 트레이드오프에 영향을 미치지만, 비슷한 크기의 사전 훈련 모델이 달성할 수 있는 수준을 넘어서는 설명 충실도의 경계를 근본적으로 확장한다는 증거는 제한적이었습니다. 결론적으로, 지시어 튜닝, 설명의 상세함, 그리고 모델 의사결정 과정의 충실한 표현 사이의 미묘한 관계를 강조합니다.