본 논문은 자동 에세이 채점(AES) 시스템의 세 가지 주요 과제(수동 특징 추출에 대한 의존, 미세한 특징 포착의 어려움, 다중 모드 맥락 처리의 어려움)를 해결하기 위해 다중 모드 대규모 언어 모델(MLLM)을 활용한 새로운 벤치마크인 EssayJudge를 제안한다. EssayJudge는 어휘, 문장, 담화 수준의 특징을 평가하여 기존 AES 시스템의 한계를 극복하고, 수동 특징 엔지니어링 없이 정확하고 맥락이 풍부한 평가를 제공하고자 한다. 18개의 대표적인 MLLM을 사용한 실험 결과, 특히 담화 수준 특징에서 인간 평가와 비교하여 AES 성능의 차이가 드러났으며, 이는 MLLM 기반 AES 연구의 추가적인 발전 필요성을 시사한다.