haebom
Sign In
CRAFT: Critic-Refined Adaptive Key-Frame Targeting for Multimodal Video Question Answering
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Mahesh Bhosale, Abdul Wasi, Vishvesh Trivedi, Pengyu Yan, Akhil Gorugantu, David Doermann
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๋ค์ํ ๋น๋์ค ์์นด์ด๋ธ์์ ์ง๋ฌธ ๊ด๋ จ ์ฆ๊ฑฐ๋ฅผ ์ฐพ๊ณ ๊ฐ ์ฃผ์ฅ์ ์ถ์ฒ์ ์ฐ๊ฒฐํด์ผ ํ๋ ์ค์ ๋ด์ค ์ฌ๊ฑด์ ๋ํ ๋ฉํฐ๋น๋์ค ์ง์์๋ต(VQA) ์์คํ ์ ๊ณผ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ์ด๋ฅผ ์ํด CRAFT(Critic-Refined Adaptive Key-Frame Targeting)๋ผ๋ ๋์ ํคํ๋ ์ ์ ํ, ๋ค๊ตญ์ด ๋์ฒด ๊ธฐ๋ฅ์ ๊ฐ์ถ ๋น๋์ค๋ณ ASR, ๊ทธ๋ฆฌ๊ณ ์ฃผ์ฅ์ ๋ฐ๋ณต์ ์ผ๋ก ๊ฒ์ฆํ๊ณ ์์ ํ๋ ํ์ด๋ธ๋ฆฌ๋ ๋นํ ๋ฃจํ๋ฅผ ๊ฒฐํฉํ ์ฟผ๋ฆฌ ์กฐ๊ฑด๋ถ ํ์ดํ๋ผ์ธ์ ์ ์ํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
CRAFT๋ MAGMaR 2026 ๋ฐ์ดํฐ์ ์์ ์ฐ์ํ ํ๊ท ์ ์(0.739), ์ฐธ์กฐ ๋ฆฌ์ฝ(0.810), ์ธ์ฉ F1(0.635)์ ๋ฌ์ฑํ๋ฉฐ ๋ฉํฐ๋น๋์ค VQA ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
โข
MAGMaR ์คํ์ผ์ WikiVideo ๋ฐ์ดํฐ์ ์์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ(0.823 Avg)์ ๋ณด์ฌ, ์ ์๋ ์ฃผ์ฅ์ ์ด์ ์ ๋ง์ถ ์ฆ๊ฑฐ ์ทจํฉ ๋ฐฉ์์ด MAGMaR ์ธ์ ๋ค์ํ ๋ฐ์ดํฐ์ ์๋ ์ผ๋ฐํ๋จ์ ์ ์ฆํ์ต๋๋ค.
โข
์์์ ์ฃผ์ฅ, ASR, ๋นํ ๋ฃจํ๊ฐ ๊ธฐ๋ณธ ์ฟผ๋ฆฌ ์กฐ๊ฑด๋ถ ๊ธฐ๋ฐ ์ฑ๋ฅ ํฅ์์ ํต์ฌ์ ์ธ ์ญํ ์ ํฉ๋๋ค.
โข
์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ์ค์ ๋ด์ค ์ฌ๊ฑด์์์ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ๋ค์ํ ์ธ์ด ๋ฐ ๋น๋์ค ํ์์ ๋ํ ๊ฐ๊ฑด์ฑ์ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage