본 논문은 교육 평가에서 인간 평가자의 업무량을 줄이기 위해 고안된 자동 에세이 채점(AES) 및 자동 에세이 피드백(AEF) 시스템에 대해 설명한다. 특히, MAGIC(Multi-Agent Argumentation and Grammar Integrated Critiquer)이라는 프레임워크를 제시한다. MAGIC은 프롬프트 준수, 설득력, 구성, 어휘, 문법을 평가하는 5개의 특화된 에이전트를 사용하여 종합적인 점수 부여와 상세한 피드백 생성을 수행한다. 대학 수준의 평가를 지원하기 위해, 연구진은 GRE(Graduate Record Examination) 연습 에세이 데이터 세트를 구축하여 전문가 평가 점수 및 피드백을 포함시켰다. MAGIC은 GRE 데이터에서 인간과 상당하거나 거의 완벽한 점수 일치도를 달성하여 기존 LLM 모델보다 우수한 성능을 보였으며, 다중 에이전트 접근 방식을 통해 향상된 해석 가능성을 제공한다. MAGIC의 피드백 생성 능력은 인간 피드백 및 기본 모델과 비교하여 높은 품질과 자연스러움을 나타냈다.