Sign In

RE-VLM: Event-Augmented Vision-Language Model for Scene Understanding

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Hanqing Liu, Mingjie Liu, Luoping Cui, Endian Lin, Donghong Jiang, Chuang Zhu

๐Ÿ’ก ๊ฐœ์š”

๊ธฐ์กด ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)์€ ์ €์กฐ๋„, ๋†’์€ ๋™์  ๋ฒ”์œ„, ๋น ๋ฅธ ์›€์ง์ž„๊ณผ ๊ฐ™์€ ์•…์กฐ๊ฑด์—์„œ ์ดฌ์˜๋œ ์žฅ๋ฉด์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ RGB ์ด๋ฏธ์ง€์™€ ์ด๋ฒคํŠธ ์ŠคํŠธ๋ฆผ์„ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋Ÿฌํ•œ ์•…์กฐ๊ฑด์—์„œ๋„ ๊ฐ•๊ฑดํ•œ ์žฅ๋ฉด ์ดํ•ด๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” RE-VLM์ด๋ผ๋Š” ์ตœ์ดˆ์˜ ๋“€์–ผ ์ŠคํŠธ๋ฆผ VLM์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด RGB์™€ ์ด๋ฒคํŠธ ์ธ์ฝ”๋”๋ฅผ ๋ณ‘๋ ฌ๋กœ ์‚ฌ์šฉํ•˜๊ณ , ๊ฐ๋… ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด RGB-์ด๋ฒคํŠธ ์ŠคํŠธ๋ฆผ์œผ๋กœ๋ถ€ํ„ฐ ์žฅ๋ฉด ๊ทธ๋ž˜ํ”„๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์บก์…˜๊ณผ ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ๋ฅผ ํ•ฉ์„ฑํ•˜๋Š” ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ด๋ฒคํŠธ ์นด๋ฉ”๋ผ์˜ ๋ณด์™„์ ์ธ ํŠน์„ฑ์„ ํ™œ์šฉํ•˜์—ฌ ์•…์กฐ๊ฑด์—์„œ๋„ ๊ฐ•๊ฑดํ•œ ๋น„์ „-์–ธ์–ด ์ดํ•ด๊ฐ€ ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
RGB ๋ฐ ์ด๋ฒคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์œตํ•ฉํ•˜๊ณ  ํ›ˆ๋ จํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก (๋“€์–ผ ์ŠคํŠธ๋ฆผ, ์ ์ง„์  ํ›ˆ๋ จ, ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ)์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์•…์กฐ๊ฑด์— ํŠนํ™”๋œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹(PEOD-Chat, RGBE-Chat)์„ ๊ตฌ์ถ•ํ•˜์—ฌ ์—ฐ๊ตฌ ๋ฐœ์ „์— ๊ธฐ์—ฌํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ•ฉ์„ฑ๋œ ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ๊ณผ ์‹ค์ œ ๋ฐ์ดํ„ฐ์™€์˜ ๊ฐ„๊ทน, ๊ทธ๋ฆฌ๊ณ  ์‹ค์‹œ๊ฐ„ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ์˜ ํšจ์œจ์„ฑ ๋“ฑ์€ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•œ ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค.
๐Ÿ‘