Sign In

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Daeun Lee, Subhojyoti Mukherjee, Branislav Kveton, Ryan A. Rossi, Viet Dac Lai, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Mohit Bansal

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ์ฆ๊ฐ• ํ˜„์‹ค(AR) ์•ˆ๊ฒฝ๊ณผ ๊ฐ™์€ ํ˜„์‹ค์ ์ธ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ์œ„ํ•ด ์ŠคํŠธ๋ฆฌ๋ฐ ๋น„๋””์˜ค์—์„œ ์‚ฌ์šฉ์ž ์˜๋„๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ธ StreamGaze๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. StreamGaze๋Š” ์ธ๊ฐ„์˜ ์‹œ์„  ์‹ ํ˜ธ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ณผ๊ฑฐ, ํ˜„์žฌ, ๋ฏธ๋ž˜ ์ƒํ™ฉ์— ๋Œ€ํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ข…ํ•ฉ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋ฉฐ, ํŠนํžˆ ์‹ค์‹œ๊ฐ„ ์‹œ์„  ์ •๋ณด๋ฅผ ํ†ตํ•ด ๋ณ€ํ™”ํ•˜๋Š” ์ฃผ์˜๋ฅผ ์ถ”์ ํ•˜๊ณ  ์‚ฌ์šฉ์ž์˜ ์˜๋„๋ฅผ ์ถ”๋ก ํ•˜๋Š” ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์„ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์˜ ํ•„์š”์„ฑ: ๊ธฐ์กด์˜ ์ŠคํŠธ๋ฆฌ๋ฐ ๋น„๋””์˜ค ์ดํ•ด ๋ฒค์น˜๋งˆํฌ๋Š” ์‹œ์„  ์ •๋ณด๋ฅผ ํ™œ์šฉํ•œ ๋‹ค์ค‘ ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(MLLM)์˜ ๋Šฅ๋ ฅ์„ ์ธก์ •ํ•˜์ง€ ๋ชปํ–ˆ๊ธฐ์— StreamGaze๋Š” ์ด ๊ฐ„๊ทน์„ ๋ฉ”์›๋‹ˆ๋‹ค.
โ€ข
์ธ๊ฐ„ ์‹œ์„  ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ํ•œ๊ณ„: ์ตœ์ฒจ๋‹จ MLLM์€ ์ธ๊ฐ„์˜ ์‹œ์„  ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ์‹œ๊ฐ„์  ์ถ”๋ก , ์˜๋„ ๋ชจ๋ธ๋ง, ์„ ์ œ์  ์˜ˆ์ธก์—์„œ ์ƒ๋‹นํ•œ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๋ฅผ ๋ณด์ด๋ฉฐ, ํ˜„์žฌ ๋ชจ๋ธ์˜ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์ œ์‹œ: ์ƒ์„ธํ•œ ๋ถ„์„์„ ํ†ตํ•ด ์‹œ์„  ํ”„๋กฌํ”„ํŠธ ์ „๋žต, ์ถ”๋ก  ํ–‰๋™, ์‹คํŒจ ๋ชจ๋“œ์— ๋Œ€ํ•œ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•˜์—ฌ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•˜๊ณ , ๊ณต๊ฐœ๋œ ๋ฐ์ดํ„ฐ์™€ ์ฝ”๋“œ๋Š” ํ•ด๋‹น ๋ถ„์•ผ์˜ ๋ฐœ์ „์— ๊ธฐ์—ฌํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.
๐Ÿ‘