본 논문은 생성형 AI 시대에 중요한 문제인 프레젠테이션 슬라이드 자동 생성에 초점을 맞추고 있다. 다양한 주제를 다루는 고품질의 사람이 만든 프레젠테이션으로 구성된 벤치마크 데이터셋 RefSlides를 소개하고, 프레젠테이션 내용의 다양한 고유 속성을 특징짓는 지표들을 제안한다. 또한, 이러한 지표에 대한 점수와 실행 가능한 피드백을 생성하는 평가 방식인 REFLEX를 제시한다. REFLEX는 다양한 정도의 지표 특정 섭동을 가진 부정적인 프레젠테이션 샘플을 생성하고 이를 사용하여 LLMs를 미세 조정함으로써 참조 없이 평가를 수행한다. 자동화된 실험과 인간 실험을 통해 기존 휴리스틱 기반 및 최첨단 대규모 언어 모델 기반 평가보다 우수한 점수 및 설명 생성 능력을 보여준다.