본 논문은 자동 텍스트 단순화(ATS)의 평가 방법이 대규모 언어 모델(LLM)의 발전을 따라가지 못하고 있으며, 기존 지표들이 오류 존재와 상관관계가 낮다는 점을 지적한다. 따라서, 단순화된 텍스트의 오류를 감지하고 분류하기 위한 새로운 테스트 컬렉션을 제시한다. 구체적으로, 정보 왜곡에 초점을 맞춘 오류 분류 체계를 제안하고, 자동으로 단순화된 과학 텍스트의 병렬 데이터셋을 구축하여 해당 분류 체계에 기반한 수동 주석을 추가했다. 마지막으로, 데이터셋의 질을 분석하고 기존 모델의 오류 감지 및 분류 성능을 평가하여 ATS 평가의 개선, 신뢰할 수 있는 모델 개발, 자동 단순화 텍스트의 질 향상에 기여한다.