# Toward Scalable Audio Description Quality Control: A Workflow for Evaluating Human and VLM Raters

### 저자

Lana Do, Gio Jung, Juvenal Francisco Barajas, Andrew Taylor Scott, Shasta Ihorn, Alexander Mario Blum, Vassilis Athitsos, Ilmi Yoon

### 💡 개요

본 논문은 오디오 설명(AD)의 품질을 대규모로 평가하는 데 있어 기존 방식의 한계를 지적하고, 이를 해결하기 위한 새로운 방법론을 제안합니다. 아이템 반응 이론(Item Response Theory)을 활용하여 VLM(Vision-Language Model)과 사람 평가자의 숙련도를 전문가 기준에 맞춰 평가하는 워크플로우를 개발했습니다. 연구 결과, 최신 VLM이 사람 평가자 수준으로 AD 품질을 평가할 수 있음을 보여주었으나, VLM의 추론 과정은 사람보다 덜 신뢰할 수 있음을 확인했습니다.

### 🔑 시사점 및 한계

- VLM이 AD 품질 평가에서 인간 평가자 수준의 성능을 보일 수 있어, 자동화된 품질 관리 시스템 구축의 가능성을 열었습니다.

- VLM과 인간 평가자의 장점을 결합한 하이브리드 평가 시스템은 AD 품질 관리의 효율성을 높일 수 있습니다.

- VLM의 의사결정 과정이 인간보다 덜 투명하고 해석 가능성이 낮다는 점은 실질적인 피드백 제공에 제약이 될 수 있습니다.

- 본 연구에서 제시된 워크플로우의 일반화 가능성 및 다양한 유형의 AD에 대한 적용 가능성에 대한 추가적인 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2602.01390)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
