haebom
Sign In
OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention
Created by
Haebom
Category
Empty
์ ์
Zhangquan Chen, Jiale Tao, Ruihuang Li, Yihao Hu, Ruitao Chen, Zhantao Yang, Xinlei Yu, Haodong Jing, Manyuan Zhang, Shuai Shao, Biao Wang, Qinglin Lu, Ruqi Huang
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ์ธ๊ฐ์ฒ๋ผ ์ฌ๋ฌ ๊ฐ๊ฐ ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ์ธ์์ ์ดํดํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๋ ๊ธฐ์กด์ ์ด๋๋น๋์ค ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์ ํฉ๋๋ค. ์ด๋ฅผ ์ํด OmniVideo-R1์ด๋ผ๋ ์๋ก์ด ๊ฐํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์ด๋ ์ฟผ๋ฆฌ ๊ธฐ๋ฐ ์ง์ค ํ์ต๊ณผ ๋ชจ๋ฌ๋ฆฌํฐ ์ฃผ์ ์ตํฉ์ ํตํด ๋ค์ค ๊ฐ๊ฐ ์ ๋ณด ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํต๋๋ค. ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ๋ชจ๋ธ ๋๋น ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ, ๊ทธ ํจ๊ณผ์ฑ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ ์ฆํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๋ค์ค ๊ฐ๊ฐ ์ ๋ณด(์๊ฐ, ์ฒญ๊ฐ ๋ฑ)๋ฅผ ๋์ฑ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ์ฌ ์ด๋๋น๋์ค ์ดํด๋ฅผ ๊ฐํํ๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
โข
์๊ธฐ ์ง๋ ํ์ต ๋ฐ ๋์กฐ ํ์ต ํจ๋ฌ๋ค์์ ํ์ฉํ์ฌ ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ '๊ฐํ'ํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
โข
์ ์๋ OmniVideo-R1์ ๋ค์ํ ๋ฒค์น๋งํฌ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์ด๋๋น๋์ค ์ดํด ๋ถ์ผ์ ๋ฐ์ ์ ๊ธฐ์ฌํ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
โข
(ํ๊ณ์ ๋๋ ํฅํ ๊ณผ์ ) ๋ ผ๋ฌธ ์ด๋ก๋ง์ผ๋ก๋ ๊ตฌ์ฒด์ ์ธ ํ๊ณ์ ์ด๋ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ช ํํ ํ์ ํ๊ธฐ ์ด๋ ต์ต๋๋ค. (์: ์ค์ ์ ์ฉ ์์ ๊ณ์ฐ ๋ณต์ก์ฑ, ํน์ ๋ฐ์ดํฐ์ ์ ๋ํ ๊ณผ์ ํฉ ๊ฐ๋ฅ์ฑ, ๋ค๋ฅธ ๋ชจ๋ฌ๋ฆฌํฐ๋ก์ ํ์ฅ์ฑ ๋ฑ)
PDF ๋ณด๊ธฐ
Made with Slashpage