본 논문은 대규모 언어 모델(LLM)의 문장 간소화 능력 평가에 대한 기존 방법론의 한계를 지적하고, 이를 개선하기 위한 새로운 평가 프레임워크를 제시한다. 기존의 자동 평가 지표는 LLM의 간소화 능력 평가에 적합하지 않으며, 기존의 사람에 의한 평가는 지나치게 단순하거나 복잡하여 신뢰성이 떨어진다는 문제점을 지적한다. 따라서 오류 기반의 사람에 의한 주석 프레임워크를 설계하여 GPT-4, Qwen2.5-72B, Llama-3.2-3B 등 다양한 크기의 LLM을 평가하고, 자동 평가 지표에 대한 메타 평가를 수행한다. 결과적으로 GPT-4가 기존 최고 성능 모델보다 오류가 적지만, 어휘적 바꿔쓰기에는 어려움을 겪는 등 LLM의 한계를 보여준다. 또한 기존의 자동 평가 지표는 특히 고성능 LLM이 생성한 고품질 간소화에 대한 민감도가 부족함을 밝힌다.