haebom
Sign In
Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension
Created by
Haebom
Category
Empty
์ ์
Haoran Xu, Hongyu Wang, Jiaze Li, Shunpeng Chen, Zizhao Tong, Jianzhong Ju, Zhenbo Luo, Jian Luan
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์กด LLM์ ์์ง์ ์ถ๋ก ๋ฐฉ์์ด ํน์ ์ฌ๊ณ ํจํด์ ๊ณ ์ฐฉ๋๋ ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๊ณ ์, ์๊ฐ์ ์ ๋ณด์ ๋ํ ๋ณ๋ ฌ์ ์ถ๋ก ํ๋ ์์ํฌ์ธ Visual Para-Thinker๋ฅผ ์ ์ํฉ๋๋ค. ์๊ฐ์ ์ ๋ณด ๋ถํ ์ ์ค์์ฑ์ ํ๊ตฌํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก Pa-Attention๊ณผ LPRoPE๋ฅผ ํตํฉํ์ฌ ์ถ๋ก ๊ฒฝ๋ก์ ๋ ๋ฆฝ์ฑ๊ณผ ๋ค์์ฑ์ ๋ณด์ฅํ๋ ์๋ก์ด MLLM ์ถ๋ก ๋ฐฉ์์ ์ ์ํฉ๋๋ค. ์ ์๋ ๋ฐฉ์์ ์๊ฐ์ ์ดํด ๋ถ์ผ์์ ๋ณ๋ ฌ ์ถ๋ก ์ ์ด์ ์ ์ฑ๊ณต์ ์ผ๋ก ํ์ฅํจ์ ๋ณด์ฌ์ค๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
์๊ฐ์ ์ ๋ณด์ ๋ํ ๋ณ๋ ฌ ์ถ๋ก ๊ฐ๋ฅ์ฑ์ ์ต์ด๋ก ์ ์ํ๋ฉฐ, MLLM์ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
โข
๋ค์ํ ์๊ฐ์ ์ดํด ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ๋ฐฉ์ ๋๋น ์ฐ์ํ ์ฑ๋ฅ์ ์ ์ฆํ๋ฉฐ, ๋ณ๋ ฌ ์ถ๋ก ์ ํจ๊ณผ๋ฅผ ์๊ฐ ์์ญ์ผ๋ก ํ์ฅํ์ต๋๋ค.
โข
Pa-Attention๊ณผ LPRoPE์ ํตํฉ์ ํตํด ์ถ๋ก ๊ฒฝ๋ก์ ๋ ๋ฆฝ์ฑ๊ณผ ๋ค์์ฑ์ ํ๋ณดํ์ฌ, ๋ชจ๋ธ์ ์ฌ๊ณ ํจํด ๊ณ ์ฐฉํ๋ฅผ ๋ฐฉ์งํ๊ณ ํ์ ๋ฒ์๋ฅผ ๋ํ๋๋ค.
โข
์ ์๋ ํ๋ ์์ํฌ์ ํ์ฅ์ฑ ๋ฐ ๋ค์ํ ์ข ๋ฅ์ ์๊ฐ์ ์ถ๋ก ์์ ์ ๋ํ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage