SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model
Created by
Haebom
저자
Yifan Chang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou, Kaipeng Zhang
개요
본 논문은 과학적 그림 생성을 위한 첫 번째 벤치마크인 SridBench를 소개합니다. SridBench는 13개의 자연과학 및 컴퓨터 과학 분야의 주요 과학 논문에서 전문가와 대규모 언어 모델을 통해 수집한 1,120개의 인스턴스로 구성됩니다. 각 샘플은 의미적 충실도 및 구조적 정확도를 포함한 6가지 차원에 따라 평가됩니다. GPT-4o-image와 같은 최고 수준의 모델조차도 인간의 성능에 미치지 못하며, 텍스트/시각적 명확성과 과학적 정확성에서 공통적인 문제점을 보이는 실험 결과를 제시합니다. 이는 더욱 발전된 추론 기반 시각적 생성 능력의 필요성을 강조합니다.
시사점, 한계점
•
시사점: 과학적 그림 생성 분야의 첫 번째 벤치마크인 SridBench를 제공하여 모델 성능 평가 및 향상 방향 제시. 현존 최고 수준의 모델의 한계를 밝힘으로써 향후 연구 방향 제시. 과학적 그림 생성 자동화의 중요성과 그에 따른 실질적 가치를 부각.
•
한계점: SridBench의 규모 (1,120개 인스턴스)가 상대적으로 작을 수 있음. 평가 기준의 객관성 확보를 위한 추가적인 연구 필요. 다양한 과학 분야를 포괄하였지만, 모든 분야를 완벽하게 대표하지 못할 수 있음.