본 논문은 과학 논문의 핵심 주장을 훼손하는 오류를 탐지하는 데 LLM(Large Language Models)의 효율성을 평가하기 위해 설계된 자동화된 벤치마크인 FLAWS(Fault Localization Across Writing in Science)를 소개합니다. 이 벤치마크는 논문에 오류를 체계적으로 삽입하고 자동화된 평가 지표를 사용하여 LLM이 이러한 오류를 식별하고 위치를 파악할 수 있는지 측정합니다. GPT 5를 포함한 다섯 개의 최첨단 LLM을 평가한 결과, GPT 5가 가장 높은 성능(k=10일 때 39.1% 식별 정확도)을 보였습니다.