Toward Scalable Audio Description Quality Control: A Workflow for Evaluating Human and VLM Raters

작성자

Haebom

카테고리

Empty

저자

Lana Do, Gio Jung, Juvenal Francisco Barajas, Andrew Taylor Scott, Shasta Ihorn, Alexander Mario Blum, Vassilis Athitsos, Ilmi Yoon

💡 개요

본 논문은 오디오 설명(AD)의 품질을 대규모로 평가하는 데 있어 기존 방식의 한계를 지적하고, 이를 해결하기 위한 새로운 방법론을 제안합니다. 아이템 반응 이론(Item Response Theory)을 활용하여 VLM(Vision-Language Model)과 사람 평가자의 숙련도를 전문가 기준에 맞춰 평가하는 워크플로우를 개발했습니다. 연구 결과, 최신 VLM이 사람 평가자 수준으로 AD 품질을 평가할 수 있음을 보여주었으나, VLM의 추론 과정은 사람보다 덜 신뢰할 수 있음을 확인했습니다.

🔑 시사점 및 한계

•

VLM이 AD 품질 평가에서 인간 평가자 수준의 성능을 보일 수 있어, 자동화된 품질 관리 시스템 구축의 가능성을 열었습니다.

•

VLM과 인간 평가자의 장점을 결합한 하이브리드 평가 시스템은 AD 품질 관리의 효율성을 높일 수 있습니다.

•

VLM의 의사결정 과정이 인간보다 덜 투명하고 해석 가능성이 낮다는 점은 실질적인 피드백 제공에 제약이 될 수 있습니다.

•

본 연구에서 제시된 워크플로우의 일반화 가능성 및 다양한 유형의 AD에 대한 적용 가능성에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage