haebom
Sign In
Separate First, Fuse Later: Mitigating Cross-Modal Interference in Audio-Visual LLMs Reasoning with Modality-Specific Chain-of-Thought
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Xuanchen Li, Yuheng Lu, Chenrui Cui, Tianrui Wang, Zikang Huang, Yu Jiang, Long Zhou, Longbiao Wang, Jianwu Dang
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ์ค๋์ค-๋น์ฃผ์ผ ์ง์์๋ต(AVQA) ๋ชจ๋ธ์์ ๋ฐ์ํ๋ ๊ต์ฐจ ๋ชจ๋ฌ ๊ฐ์ญ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด 'Separate First, Fuse Later (SFFL)'๋ผ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. SFFL์ ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ณ๋ก ๋ ๋ฆฝ์ ์ธ ์ถ๋ก ๊ณผ์ ์ ๊ฑฐ์น๋๋ก ์ ๋ํ๊ณ , ์ต์ข ๋จ๊ณ์์ ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ์ํธ ๊ฐ์ญ์ผ๋ก ์ธํ ํ๊ฐ(hallucination)์ ์ค์ ๋๋ค. ์คํ ๊ฒฐ๊ณผ, ์ ์๋ ๋ฐฉ๋ฒ์ AVQA ๋ฒค์น๋งํฌ์์ ์ ๋ฐ์ ์ธ ์ ํ๋์ ๊ฐ๊ฑด์ฑ์ ํฅ์์ํค๋ ์ฑ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
์ค๋์ค์ ๋น์ฃผ์ผ ์ ๋ณด์ ๋ณด์์ฑ์ ๊ทน๋ํํ๋ฉด์๋, ๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ์ ๊ณ ์ ํ ์ ๋ณด๋ฅผ ๊ฐ์ญ ์์ด ํ์ฉํ ์ ์๋ ์๋ก์ด ์ถ๋ก ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
โข
๊ฐํ ํ์ต๊ณผ ๋ชจ๋ฌ๋ฆฌํฐ ์ ํธ๋ ๋ ์ด๋ธ์ ํ์ฉํ์ฌ ๋ชจ๋ธ์ด ๋ฐ์ดํฐ์ ๋ฐ๋ผ ์ด๋ค ๋ชจ๋ฌ๋ฆฌํฐ ์ ๋ณด๋ฅผ ๋ ์ค์ํ๊ฒ ๊ณ ๋ คํด์ผ ํ๋์ง ํ์ต์ํค๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ค๋๋ค.
โข
๋ชจ๋ฌ๋ฆฌํฐ๋ณ ๋ถ๋ฆฌ ์ถ๋ก ๊ณผ์ ์์์ ์ ๋ณด ๋ณด์กด ๋ฐ ์ตํฉ ๋จ๊ณ์์์ ํจ๊ณผ์ ์ธ ํตํฉ ๋ฉ์ปค๋์ฆ ์ค๊ณ๊ฐ ์ค์ํ๋ฉฐ, ์ด ๊ณผ์ ์์์ ์ถ๊ฐ์ ์ธ ์ต์ ํ ๊ฐ๋ฅ์ฑ์ ํ์ํด์ผ ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage