haebom
Sign In
Toward Scalable Audio Description Quality Control: A Workflow for Evaluating Human and VLM Raters
Created by
Haebom
Category
Empty
์ ์
Lana Do, Gio Jung, Juvenal Francisco Barajas, Andrew Taylor Scott, Shasta Ihorn, Alexander Mario Blum, Vassilis Athitsos, Ilmi Yoon
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ์ค๋์ค ์ค๋ช (AD)์ ํ์ง์ ๋๊ท๋ชจ๋ก ํ๊ฐํ๋ ๋ฐ ์์ด ๊ธฐ์กด ๋ฐฉ์์ ํ๊ณ๋ฅผ ์ง์ ํ๊ณ , ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค. ์์ดํ ๋ฐ์ ์ด๋ก (Item Response Theory)์ ํ์ฉํ์ฌ VLM(Vision-Language Model)๊ณผ ์ฌ๋ ํ๊ฐ์์ ์๋ จ๋๋ฅผ ์ ๋ฌธ๊ฐ ๊ธฐ์ค์ ๋ง์ถฐ ํ๊ฐํ๋ ์ํฌํ๋ก์ฐ๋ฅผ ๊ฐ๋ฐํ์ต๋๋ค. ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ์ต์ VLM์ด ์ฌ๋ ํ๊ฐ์ ์์ค์ผ๋ก AD ํ์ง์ ํ๊ฐํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ผ๋, VLM์ ์ถ๋ก ๊ณผ์ ์ ์ฌ๋๋ณด๋ค ๋ ์ ๋ขฐํ ์ ์์์ ํ์ธํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
VLM์ด AD ํ์ง ํ๊ฐ์์ ์ธ๊ฐ ํ๊ฐ์ ์์ค์ ์ฑ๋ฅ์ ๋ณด์ผ ์ ์์ด, ์๋ํ๋ ํ์ง ๊ด๋ฆฌ ์์คํ ๊ตฌ์ถ์ ๊ฐ๋ฅ์ฑ์ ์ด์์ต๋๋ค.
โข
VLM๊ณผ ์ธ๊ฐ ํ๊ฐ์์ ์ฅ์ ์ ๊ฒฐํฉํ ํ์ด๋ธ๋ฆฌ๋ ํ๊ฐ ์์คํ ์ AD ํ์ง ๊ด๋ฆฌ์ ํจ์จ์ฑ์ ๋์ผ ์ ์์ต๋๋ค.
โข
VLM์ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ด ์ธ๊ฐ๋ณด๋ค ๋ ํฌ๋ช ํ๊ณ ํด์ ๊ฐ๋ฅ์ฑ์ด ๋ฎ๋ค๋ ์ ์ ์ค์ง์ ์ธ ํผ๋๋ฐฑ ์ ๊ณต์ ์ ์ฝ์ด ๋ ์ ์์ต๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ์์ ์ ์๋ ์ํฌํ๋ก์ฐ์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฐ ๋ค์ํ ์ ํ์ AD์ ๋ํ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage