What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations
Created by
Haebom
저자
Dongqi Liu, Chenxi Whitehouse, Xi Yu, Louis Mahon, Rohit Saxena, Zheng Zhao, Yifu Qiu, Mirella Lapata, Vera Demberg
개요
본 논문은 과학 분야 비디오-텍스트 요약을 위한 새로운 데이터셋 VISTA를 소개합니다. VISTA는 18,599개의 AI 학회 발표 영상과 해당 논문 초록을 짝지어 구성되어 있습니다. 논문에서는 최신 대규모 모델들의 성능을 벤치마킹하고, 초록의 구조적 특성을 더 잘 포착하기 위해 계획 기반 프레임워크를 적용합니다. 사람과 자동 평가 모두 계획 기반 접근법이 요약의 질과 사실 일관성을 향상시킨다는 것을 확인했지만, 여전히 모델과 사람의 성능 간에는 상당한 차이가 존재하며, 이는 데이터셋의 어려움을 보여줍니다. 이 연구는 과학 분야 비디오-텍스트 요약에 대한 미래 연구의 토대를 마련하고자 합니다.
시사점, 한계점
•
시사점:
◦
과학 분야 비디오-텍스트 요약을 위한 새로운 데이터셋 VISTA를 제공합니다.
◦
계획 기반 프레임워크가 비디오-텍스트 요약의 질과 사실 일관성 향상에 효과적임을 보여줍니다.