Sign In

Multimodal Fact-Level Attribution for Verifiable Reasoning

Created by
  • Haebom
Category
Empty

์ €์ž

David Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee, Mohit Bansal

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(MLLMs)์˜ ๋ณต์žกํ•œ ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก  ์‹œ ๋ฐœ์ƒํ•˜๋Š” ์‚ฌ์‹ค์  ์ฃผ์žฅ์„ ๊ฐ ๊ทผ๊ฑฐ ์ž๋ฃŒ(๋น„๋””์˜ค, ์˜ค๋””์˜ค ๋“ฑ)์˜ ์ •ํ™•ํ•œ ๋ถ€๋ถ„๊นŒ์ง€ ์ถ”์ ํ•˜๊ณ  ๊ฒ€์ฆํ•˜๋Š” ๋Šฅ๋ ฅ ํ‰๊ฐ€์˜ ํ•„์š”์„ฑ์„ ์ œ๊ธฐํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์ถ”๋ก  ๊ณผ์ •์—์„œ ๊ฐ ์‚ฌ์‹ค ์ฃผ์žฅ์— ๋Œ€ํ•ด ํŠน์ • ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์™€ ์‹œ๊ฐ„ ๊ตฌ๊ฐ„์„ ๋ช…์‹œํ•˜๋Š” ์ธ์šฉ์„ ์š”๊ตฌํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ธ MuRGAt๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. MuRGAt ๋ฒค์น˜๋งˆํ‚น ๊ฒฐ๊ณผ, ์ตœ์‹  MLLMs์กฐ์ฐจ๋„ ์ •ํ™•ํ•œ ์ถ”๋ก ๊ณผ ๋ณ„๊ฐœ๋กœ ์ž˜๋ชป๋œ ์ธ์šฉ์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์œผ๋ฉฐ, ์ถ”๋ก ์˜ ๊นŠ์ด๋‚˜ ๊ตฌ์กฐํ™”๋œ ๊ทผ๊ฑฐ ์ œ์‹œ ์š”๊ตฌ๋Š” ์ •ํ™•๋„๋ฅผ ์ €ํ•˜์‹œํ‚ค๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
MLLMs์˜ ๋ณต์žกํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก ์—์„œ ์‚ฌ์‹ค ๊ธฐ๋ฐ˜์˜ ์ •ํ™•ํ•œ ์ธ์šฉ ๋Šฅ๋ ฅ์€ ์•„์ง ๋ถ€์กฑํ•˜๋ฉฐ, ์ด๋Š” ๋ชจ๋ธ์˜ ์‹ ๋ขฐ์„ฑ ํ™•๋ณด์— ์ค‘์š”ํ•œ ์žฅ์• ๋ฌผ์ž…๋‹ˆ๋‹ค.
โ€ข
ํ˜„์žฌ MLLMs๋Š” ์ถ”๋ก  ์ž์ฒด๋Š” ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์œผ๋‚˜, ๊ทธ ๊ฒฐ๊ณผ๊ฐ€ ์‹ค์ œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•˜๊ฒŒ ๊ทผ๊ฑฐํ•˜๋Š”์ง€๋ฅผ ๋ช…ํ™•ํžˆ ์ œ์‹œํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์Šต๋‹ˆ๋‹ค.
โ€ข
์ถ”๋ก ์˜ ๋ณต์žก์„ฑ์ด๋‚˜ ๊ตฌ์กฐํ™”๋œ ๊ทผ๊ฑฐ ์ œ์‹œ ์š”๊ตฌ๋Š” ๋ชจ๋ธ์˜ ์ •ํ™•๋„๋ฅผ ํฌ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ํ–ฅํ›„ ๋ชจ๋ธ ์„ค๊ณ„ ์‹œ ๊ณ ๋ คํ•ด์•ผ ํ•  ๊ท ํ˜•์ ์ž…๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ฒค์น˜๋งˆํฌ MuRGAt๋Š” ํ–ฅํ›„ MLLMs์˜ ์‚ฌ์‹ค์  ๊ทผ๊ฑฐ ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€ ๋ฐ ๊ฐœ์„ ์— ๊ธฐ์—ฌํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.
โ€ข
์ž๋™ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์ธ๊ฐ„ ํ‰๊ฐ€์™€ ๋†’์€ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋ณด์ด์ง€๋งŒ, ๋ณต์žกํ•œ ์ถ”๋ก  ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๋ชจ๋“  ํ™˜๊ฐ(hallucination) ์‚ฌ๋ก€๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ ํฌ์ฐฉํ•˜๋Š” ๋ฐ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘