Sign In

VideoRouter: Query-Adaptive Dual Routing for Efficient Long-Video Understanding

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Kuanwei Lin, Wenhao Zhang, Ge Li

๐Ÿ’ก ๊ฐœ์š”

์ด ๋…ผ๋ฌธ์€ ๊ธด ๋น„๋””์˜ค๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ํ™•์žฅ์„ฑ ๋ณ‘๋ชฉ ํ˜„์ƒ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด VideoRouter๋ผ๋Š” ์ฟผ๋ฆฌ ์ ์‘ํ˜• ๋“€์–ผ ๋ผ์šฐํ„ฐ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. VideoRouter๋Š” ์‹œ๋งจํ‹ฑ ๋ผ์šฐํ„ฐ์™€ ์ด๋ฏธ์ง€ ๋ผ์šฐํ„ฐ๋ฅผ ํ†ตํ•ด ๋น„๋””์˜ค์˜ ์‹œ๊ณต๊ฐ„์  ์ฆ๊ฑฐ๋ฅผ ๋™์ ์œผ๋กœ ํ• ๋‹นํ•˜์—ฌ ๋ถˆํ•„์š”ํ•œ ํ”„๋ ˆ์ž„์„ ์••์ถ•ํ•˜๊ณ  ์ค‘์š”ํ•œ ํ”„๋ ˆ์ž„์˜ ์„ธ๋ถ€ ์ •๋ณด๋ฅผ ๋ณด์กดํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค ํ›จ์”ฌ ์ ์€ ๊ณ„์‚ฐ๋Ÿ‰์œผ๋กœ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๊ธด ๋น„๋””์˜ค ์ดํ•ด์—์„œ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์ฟผ๋ฆฌ ์ ์‘ํ˜• ์ฆ๊ฑฐ ํ• ๋‹น ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ (Video-QTR-10K, Video-FLR-200K)์„ ๊ตฌ์ถ•ํ•˜์—ฌ ๋ฐฉ๋ฒ•๋ก ์˜ ํšจ๊ณผ์ ์ธ ํ›ˆ๋ จ์„ ์ง€์›ํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ VideoRouter๋Š” ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ๋ชจ๋ธ ๋Œ€๋น„ ์ƒ๋‹นํ•œ ํ† ํฐ ๊ฐ์†Œ์™€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
(ํ•œ๊ณ„์  ๋˜๋Š” ํ–ฅํ›„ ๊ณผ์ œ) ์•„์ง ํŠน์ • ์œ ํ˜•์˜ ๋น„๋””์˜ค ์ฝ˜ํ…์ธ ๋‚˜ ๋ณต์žกํ•œ ์‹œ๊ฐ์  ํŒจํ„ด์— ๋Œ€ํ•œ ์ ์‘์„ฑ์ด ๋” ์š”๊ตฌ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ผ์šฐํ„ฐ ์ž์ฒด์˜ ํ•™์Šต ๋ณต์žก์„ฑ์ด๋‚˜ ์—ฐ์‚ฐ ๋น„์šฉ์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์ตœ์ ํ™” ๊ฐ€๋Šฅ์„ฑ์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘