언어 모델(LM)이 실제 대화의 뉘앙스를 이해하고, 대화의 역학 관계를 파악하기 위해 내부 세계 모델을 구축하고 유지하는 능력을 평가하는 연구입니다. 이를 위해 인기 있는 데이터셋에서 가져온 대화에 7가지의 최소한의 언어적 변화를 적용하고, 예/아니오 질문으로 구성된 두 개의 벤치마크를 개발했습니다. 다양한 LM의 성능을 평가한 결과, LM이 핵심 세부 정보를 기억하고 언어적 변화에 따른 엔티티 추적에 어려움을 겪는다는 것을 발견했습니다. 또한, 변환기 레이어의 유용성과 해로움을 식별하는 해석 가능성 프레임워크를 제안하고, 유해한 레이어의 영향을 억제하기 위한 두 가지 레이어 정규화 기반 미세 조정 전략을 제시했습니다.