본 논문은 대규모 언어 모델(LLM)의 성능 평가에 사용되는 벤치마크 데이터셋의 타당성에 의문을 제기한다. LLM이 벤치마크 질문에 대한 답변을 통해 능력을 추론하는 것이 정당한지에 대한 공식적인 틀을 제시하며, 사람을 평가하는 데 사용되는 벤치마크가 LLM을 평가하는 데에도 사용된다는 점을 지적한다. 하지만 이는 LLM이 사람과 같은 방식으로 개념을 오해해야만 벤치마크가 유효한 평가 도구가 된다는 것을 의미한다. 그렇지 않다면 벤치마크에서의 성공은 단순히 "포템킨 이해"(겉보기만 그럴듯한 이해)일 뿐이며, 이는 어떤 사람도 개념을 해석하는 방식과는 맞지 않는 답변에 의해 만들어진 이해의 환상이다. 논문에서는 세 가지 영역에서 특별히 고안된 벤치마크와 일반적인 절차를 사용하여 포템킨 이해의 존재를 정량화하는 두 가지 절차를 제시하고, 모델, 과제, 영역 전반에 걸쳐 포템킨 이해가 널리 퍼져 있음을 발견한다. 또한 이러한 실패는 단순히 잘못된 이해가 아니라 개념 표현의 더 심오한 내적 불일치를 반영한다는 것을 발견한다.