본 논문은 대규모 언어 모델(LLM)의 자체 설명 능력, 특히 자체 생성 반례 설명(SCEs)의 효과성을 연구합니다. 기존의 post-hoc 설명 방법과 달리, LLM이 스스로 출력을 설명하는 자체 설명 방식에 주목하며, 다양한 LLM, 모델 크기, 온도 설정 및 데이터셋을 사용하여 SCE 생성 능력을 평가하는 테스트를 설계하고 분석합니다. 분석 결과, LLM이 SCE를 생성하는 데 어려움을 겪는 경우가 있으며, 생성하더라도 LLM의 예측과 자체 반례 추론이 일치하지 않는 경우가 있음을 밝힙니다.