haebom
Sign In
TARAC: Mitigating Hallucination in LVLMs via Temporal Attention Real-time Accumulative Connection
Created by
Haebom
Category
Empty
์ ์
Lei Jiang, Chunzhao Xie, Tongxuan Liu, Yuting Zeng, jinrong Guo, Yunheng Shen, Weizhe Huang, Jing Li, Xiaohua Xu
๐ก ๊ฐ์
๋๊ท๋ชจ ๋น์ -์ธ์ด ๋ชจ๋ธ(LVLM)์ ๋๋ผ์ด ๋ฅ๋ ฅ์ ๋ณด์ด์ง๋ง, ํ๊ฐ(hallucination) ํ์์ผ๋ก ์ธํด ์ค์ง์ ์ธ ๋ฐฐํฌ์ ์ด๋ ค์์ ๊ฒช์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์์ฑ ๊ณผ์ ์์ ๋ฐ์ํ๋ ์๊ฐ์ ์ฃผ์(visual attention)์ ์ ํ๊ฐ ํ๊ฐ์ ์ฃผ์ ์์ธ์์ ๋ฐํ๊ณ , ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์๋ก์ด ํ๋ จ ์๋(training-free) ํ๋ ์์ํฌ์ธ TARAC(Temporal Attention Real-time Accumulative Connection)์ ์ ์ํฉ๋๋ค. TARAC์ ๊ณผ๊ฑฐ์ ์๊ฐ์ ์ฃผ์ ์ ๋ณด๋ฅผ ๋์ ์ผ๋ก ๋์ ํ๊ณ ์ฌ์ฃผ์ ํ์ฌ ์๊ฐ์ ๊ทผ๊ฑฐ(visual grounding)๋ฅผ ์ ์งํจ์ผ๋ก์จ ํ๊ฐ์ ํจ๊ณผ์ ์ผ๋ก ์ค์ ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
ํ๋ จ ์์ด ๊ธฐ์กด LVLM์ ํ๊ฐ ํ์์ ํจ๊ณผ์ ์ผ๋ก ์ํํ๋ฉฐ, ํนํ ์์ฑ ๊ณผ์ ์์์ ์๊ฐ์ ์ฃผ์ ์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค.
โข
๊ฒฝ๋์ ํ๋ฌ๊ทธ ์ค ํ๋ ์ด(plug-and-play) ๋ชจ๋๋ก์, ๊ธฐ์กด ๋ชจ๋ธ์ ์ฝ๊ฒ ์ ์ฉ ๊ฐ๋ฅํ๋ฉฐ ์ถ๋ก ์ ๊ณ์ฐ ์ค๋ฒํค๋๊ฐ ๊ฑฐ์ ์์ต๋๋ค.
โข
๋ค์ํ ๋ชจ๋ธ ๋ฐ ๋ฒค์น๋งํฌ์์ ์ต์ฒจ๋จ(state-of-the-art) ๋ฐฉ๋ฒ๋ก ๋๋น ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ํ๊ฐ ๋ฌธ์ฅ ๊ฐ์ ๋ฐ ์ธ์ ์ ์ ํฅ์ ๋ฑ์ ๊ตฌ์ฒด์ ์ธ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ๋ TARAC์ด ์ธ์ง ๊ฐํ ๋ฉ์ปค๋์ฆ์์ ์๊ฐ์ ๋ฐ์์์ ์ธ๊ธํ์ง๋ง, ์ค์ ์ธ์ง ๊ณผํ์ ์๋ฆฌ์์ ๋ ๊น์ ์ฐ๊ฒฐ์ฑ์ด๋, TARAC์ด ํ๊ฐ์ ์ค์ด๋ ์ ํํ ๋ฉ์ปค๋์ฆ์ ๋ํ ์ถ๊ฐ์ ์ธ ์ด๋ก ์ ๋ถ์์ด ํ์ํ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage