Sign In

Hide to See: Reasoning-prefix Masking for Visual-anchored Thinking in VLM Distillation

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Seonghoon Yu, Dongjun Nam, Byung-Kwan Lee, Jeany Son

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ(VLM)์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํšจ์œจ์ ์œผ๋กœ ์••์ถ•ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์ฆ๋ฅ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ œ์•ˆ๋œ ๊ธฐ๋ฒ•์€ VLM์˜ ์ถ”๋ก  ๊ณผ์ • ์ค‘ ์‹œ๊ฐ ์ •๋ณด์— ๋Œ€ํ•œ ์˜์กด์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด, ํ•™์ƒ ๋ชจ๋ธ์˜ ์ค‘์š”ํ•œ ์ถ”๋ก  ์ ‘๋‘์‚ฌ๋ฅผ ๋งˆ์Šคํ‚นํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต์„ ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด์˜ ๊ณ ๋น„์šฉ VLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ชจ๋ธ๋กœ ํšจ๊ณผ์ ์œผ๋กœ ์ด์ „์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์‹œ๊ฐ ์ •๋ณด ํ™œ์šฉ ๊ฐ•ํ™”: ์ œ์•ˆ๋œ ๋งˆ์Šคํ‚น ๊ธฐ๋ฒ•์€ ํ•™์ƒ ๋ชจ๋ธ์ด ํ…์ŠคํŠธ ๋‹จ์„œ์—๋งŒ ์˜์กดํ•˜์ง€ ์•Š๊ณ  ์‹œ๊ฐ์  ์ฆ๊ฑฐ๋ฅผ ๋” ์ ๊ทน์ ์œผ๋กœ ํ™œ์šฉํ•˜์—ฌ ์ถ”๋ก ํ•˜๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํšจ์œจ์ ์ธ VLM ์ฆ๋ฅ˜: ๊ณ ์„ฑ๋Šฅ VLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ปดํ“จํŒ… ๋น„์šฉ์ด ๋‚ฎ์€ ์†Œํ˜• VLM์œผ๋กœ ํšจ๊ณผ์ ์œผ๋กœ ์ด์ „ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
๋งˆ์Šคํ‚น ์ „๋žต์˜ ๋ฐœ์ „: ๋‹จ์ˆœํžˆ ํ…์ŠคํŠธ๋ฅผ ๋งˆ์Šคํ‚นํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ์ถ”๋ก  ๊ณผ์ •์˜ ํ•ต์‹ฌ์ ์ธ ๋ถ€๋ถ„์„ ๋งˆ์Šคํ‚นํ•˜๊ณ  ์ ์ง„์ ์œผ๋กœ ๋‚œ์ด๋„๋ฅผ ์กฐ์ ˆํ•˜๋Š” ๋…์ฐฝ์ ์ธ ๋งˆ์Šคํ‚น ์ „๋žต์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํ–ฅํ›„ ๊ณผ์ œ: ๋งˆ์Šคํ‚น ์ „๋žต์˜ ์ตœ์ ํ™” ๋ฐ ๋‹ค์–‘ํ•œ VLM ์•„ํ‚คํ…์ฒ˜์— ๋Œ€ํ•œ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ ํƒ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘