haebom
Sign In
Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Siyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Zefeng He, Muxin Fu, Daizong Liu, Wei-Long Zheng, Yu Cheng
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์๊ฐ-์ธ์ด ๋ชจ๋ธ(LVLMs)์์ ํ ์คํธ ์์ฑ ๊ธธ์ด๊ฐ ๊ธธ์ด์ง์ ๋ฐ๋ผ ์๊ฐ ์ ๋ณด์ ๋ํ ์ฃผ์๊ฐ ํฌ์๋๋ "์๊ฐ ์ ํธ ํฌ์(Visual Signal Dilution)" ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ "์๊ตฌ ์๊ฐ ๋ฉ๋ชจ๋ฆฌ(Persistent Visual Memory, PVM)" ๋ชจ๋์ ์ ์ํฉ๋๋ค. PVM์ LVLMs์ ํผ๋ํฌ์๋ ๋คํธ์ํฌ(FFN)์ ๋ณ๋ ฌ์ ์ผ๋ก ์๋ํ์ฌ ์๊ฐ ์๋ฒ ๋ฉ์ ๋ํ ๊ฑฐ๋ฆฌ ๋ถ๋ณ์ ๊ฒ์ ๊ฒฝ๋ก๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ, ๊น์ ์์ฑ ๊ณผ์ ์์ ๋ฐ์ํ๋ ์๊ฐ ์ ํธ ์ต์ ๋ฅผ ์ํํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, PVM์ ํ๋ผ๋ฏธํฐ ์ฆ๊ฐ ์์ด Qwen3-VL ๋ชจ๋ธ์์ ํ๊ท ์ ํ๋๋ฅผ ๊พธ์คํ ํฅ์์์ผฐ์ผ๋ฉฐ, ํนํ ๋ณต์กํ ์ถ๋ก ์์ ์์ ์ง์์ ์ธ ์๊ฐ ์ธ์์ ์๊ตฌํ๋ ๊ฒฝ์ฐ์ ํจ๊ณผ์ ์ด์์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
LVLMs์ ์ฅ๊ธฐ์ ์ธ ์๊ฐ ์ ๋ณด ๊ธฐ์ต ๋ฅ๋ ฅ ํฅ์์ ๋ํ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
โข
๊ธฐ์กด ๋ชจ๋ธ ๊ตฌ์กฐ์ ๊ฒฝ๋ ๋ชจ๋์ ์ถ๊ฐํ๋ ๋ฐฉ์์ผ๋ก ํจ์จ์ ์ธ ์ฑ๋ฅ ๊ฐ์ ์ด ๊ฐ๋ฅํจ์ ์ ์ฆํฉ๋๋ค.
โข
์ ์๋ PVM ๋ชจ๋์ด ํน์ ๋ณต์กํ ์ถ๋ก ์์ ์ ๋ ํจ๊ณผ์ ์ธ์ง, ํน์ ๋ชจ๋ ์ข ๋ฅ์ ์๊ฐ-์ธ์ด ์์ ์ ์ผ๋ฐ์ ์ผ๋ก ์ ์ฉ ๊ฐ๋ฅํ์ง์ ๋ํ ์ถ๊ฐ์ ์ธ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage