Sign In

How Vision Becomes Language: A Layer-wise Information-Theoretic Analysis of Multimodal Reasoning

Created by
  • Haebom
Category
Empty

์ €์ž

Hongxuan Wu, Yukun Zhang, Xueqing Zhou

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ์‹œ๊ฐ ์งˆ๋ฌธ์— ๋‹ต๋ณ€ํ•  ๋•Œ, ์‹œ๊ฐ ์ฆ๊ฑฐ, ์–ธ์–ด ์ถ”๋ก , ๋˜๋Š” ์ด ๋‘˜์˜ ์œตํ•ฉ๋œ ๊ณ„์‚ฐ ์ค‘ ์–ด๋–ค ๊ฒƒ์ด ์˜ˆ์ธก์„ ์ฃผ๋„ํ•˜๋ฉฐ, ์ด๊ฒƒ์ด ๋ชจ๋ธ ์ธต๋ณ„๋กœ ์–ด๋–ป๊ฒŒ ์ง„ํ™”ํ•˜๋Š”์ง€๋ฅผ ๊ทœ๋ช…ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๋ถ€๋ถ„ ์ •๋ณด ๋ถ„ํ•ด(PID) ๊ธฐ๋ฐ˜์˜ ์ธต๋ณ„ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ๊ณ ์ฐจ์› ์‹ ๊ฒฝ ํ‘œํ˜„์— PID๋ฅผ ์ ์šฉํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์ธ 'PID Flow'๋ฅผ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. LLaVA ๋ชจ๋ธ์— ๋Œ€ํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ, ์‹œ๊ฐ ์ •๋ณด๋Š” ์ดˆ๋ฐ˜์— ์ฆ๊ฐ€ํ–ˆ๋‹ค๊ฐ€ ๊ฐ์†Œํ•˜๊ณ , ์–ธ์–ด ์ •๋ณด๋Š” ํ›„๋ฐ˜ ์ธต์—์„œ ๊ธ‰์ฆํ•˜์—ฌ ์ตœ์ข… ์˜ˆ์ธก์˜ ๋Œ€๋ถ€๋ถ„์„ ์„ค๋ช…ํ•˜๋Š” '๋ชจ๋‹ฌ ๋ณ€ํ™˜' ํŒจํ„ด์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋ชจ๋‹ฌ ๋ณ€ํ™˜์˜ ๋ช…ํ™•ํ™”: ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์—์„œ ์‹œ๊ฐ ์ •๋ณด๋Š” ์ดˆ๊ธฐ ์ธต์—์„œ ์–ธ์–ด ์ •๋ณด๋กœ ๋ณ€ํ™˜๋˜๋Š” ์ฃผ์š” ๊ฒฝ๋กœ๋ฅผ ๊ฐ€์ง€๋ฉฐ, ์–ธ์–ด ์ •๋ณด๊ฐ€ ์ตœ์ข… ์˜ˆ์ธก์— ์••๋„์ ์œผ๋กœ ๊ธฐ์—ฌํ•จ์„ ์ •๋ณด ์ด๋ก ์ ์œผ๋กœ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๊ตฌ์กฐ์  ์•ˆ์ •์„ฑ ๋ฐ ์ž‘์—… ์˜์กด์„ฑ: ์ด๋Ÿฌํ•œ ๋ชจ๋‹ฌ ๋ณ€ํ™˜ ๊ฒฝ๋กœ๋Š” ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์— ๋”ฐ๋ผ ์•ˆ์ •์ ์œผ๋กœ ์œ ์ง€๋˜์ง€๋งŒ, ํŠน์ • ์ถ”๋ก  ์ž‘์—…์— ๋”ฐ๋ผ ์„ธ๋ถ€์ ์ธ ์ •๋ณด ํ๋ฆ„ ํŒจํ„ด์ด ๋‹ฌ๋ผ์ง์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ •๋ณด ์†์‹ค ๋ณ‘๋ชฉ ์ง€์  ์‹๋ณ„: ๋ณธ ์—ฐ๊ตฌ์˜ ์ •๋ณด ์ด๋ก ์  ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์—์„œ ๋ชจ๋‹ฌ๋ณ„ ์ •๋ณด ์†์‹ค์ด ๋ฐœ์ƒํ•˜๋Š” ๋ณ‘๋ชฉ ์ง€์ ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ์‹๋ณ„ํ•˜๊ณ  ๊ฐœ์„ ํ•˜๋Š” ๋ฐ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
PID Flow์˜ ๋ณต์žก์„ฑ ๋ฐ ๊ณ„์‚ฐ ๋น„์šฉ: ๊ณ ์ฐจ์› ์‹ ๊ฒฝ ํ‘œํ˜„์— PID๋ฅผ ์ ์šฉํ•˜๊ธฐ ์œ„ํ•œ PID Flow ๋ฐฉ๋ฒ•๋ก ์€ ์œ ์šฉํ•˜์ง€๋งŒ, ์—ฌ์ „ํžˆ ๊ณ„์‚ฐ๋Ÿ‰์ด ๋งŽ๊ณ  ๋ณต์žกํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํŠน์ • ๊ฐ€์ •(์˜ˆ: ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ) ํ•˜์—์„œ ์ž‘๋™ํ•œ๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘