전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다. 본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다. 논문에 대한 저작권은 저자 및 해당 기관에 있으며, 요약본 공유 시 출처만 명기하면 됩니다. This service is supported by Google Gemini.
본 논문은 다중 모드 대규모 언어 모델(MLLM)의 비디오 이해 능력 평가를 위한 새로운 벤치마크인 SeriesBench를 제안합니다. 기존 벤치마크가 독립적인 비디오의 시각적 요소에 집중하는 것과 달리, SeriesBench는 다양한 장르의 드라마 시리즈 105개로 구성되어 있으며, 심층적인 서사 이해를 요구하는 28가지 세부 과제를 포함합니다. 긴 서사 맥락을 위한 새로운 주석 방법과 다양한 과제 형식으로 변환하는 방법을 제시하고, 서사 추론 프레임워크인 PC-DCoT를 제안하여 모델의 플롯 구조 및 등장인물 관계 분석 능력을 향상시킵니다. SeriesBench에서의 실험 결과는 기존 MLLM이 서사 중심 시리즈 이해에 어려움을 겪고 있음을 보여주며, PC-DCoT가 MLLM의 성능 향상에 기여함을 입증합니다. SeriesBench는 https://github.com/zackhxn/SeriesBench-CVPR2025 에서 공개적으로 이용 가능합니다.