VinaBench: Benchmark for Faithful and Consistent Visual Narratives
Created by
Haebom
Category
Empty
저자
Silin Gao, Sheryl Mathew, Li Mi, Sepideh Mamooler, Mengjie Zhao, Hiromi Wakaki, Yuki Mitsufuji, Syrielle Montariol, Antoine Bosselut
개요
본 논문은 텍스트 기반 시각적 스토리텔링 생성에서 텍스트 충실도와 이미지 간 일관성 문제를 해결하기 위해 새로운 벤치마크 VinaBench를 제안합니다. VinaBench는 시각적 스토리텔링 샘플에 상식 및 담화 제약 조건을 주석화하여 암묵적인 스토리텔링 전략 학습을 위한 체계적인 기반을 제공합니다. 이를 바탕으로 생성된 이미지의 일관성과 입력 텍스트와의 정합성을 평가하는 새로운 지표를 제시하며, 세 가지 생성 모델 실험 결과 VinaBench의 지식 제약 조건을 활용한 학습이 생성된 시각적 스토리텔링의 충실도와 응집력을 효과적으로 향상시킨다는 것을 보여줍니다.
시사점, 한계점
•
시사점:
◦
VinaBench는 텍스트 기반 시각적 스토리텔링 생성 모델의 성능 향상을 위한 새로운 벤치마크를 제공합니다.
◦
제안된 새로운 평가 지표는 생성된 시각적 스토리텔링의 질을 더욱 정확하게 평가할 수 있도록 합니다.
◦
VinaBench를 활용한 학습은 시각적 스토리텔링 생성 모델의 충실도와 일관성을 향상시킵니다.
•
한계점:
◦
VinaBench의 규모 및 다양성이 향후 더 확장될 필요가 있습니다.
◦
제안된 평가 지표는 완벽하지 않을 수 있으며, 추가적인 평가 지표 개발이 필요할 수 있습니다.