본 논문은 대규모 언어 모델(LLM) 평가를 위한 현재 벤치마크가 표준화된 작문 스타일에 치중되어 있어, 인간의 다양한 의사소통 패턴을 충분히 반영하지 못한다는 점을 지적한다. 이에 따라 LLM이 비표준 입력에 취약할 수 있다는 가설을 검증하기 위해, 페르소나 기반 LLM 프롬프팅을 활용하여 다양한 작문 스타일을 모방, 동일한 의미 내용을 가진 프롬프트의 작문 스타일과 형식 변화가 LLM의 성능 평가에 미치는 영향을 분석했다. 연구 결과, 다양한 LLM 모델과 작업에서 특정 작문 스타일이 일관적으로 낮은 또는 높은 성능을 유발함을 확인했으며, 이는 모델의 종류, 크기, 최신성에 관계없이 나타났다. 본 연구는 기존 벤치마크를 확장하여 LLM의 언어적 변이에 대한 성능 평가의 외부 타당도를 향상시키는 확장 가능한 접근 방식을 제시한다.