Sign In

DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding

Created by
  • Haebom
Category
Empty

์ €์ž

Hao Yan, Yuliang Liu, Xingchen Liu, Yuyi Zhang, Minghui Liao, Jihao Wu, Wei Chen, Xiang Bai

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ธด ๋ฌธ์„œ ์ดํ•ด์—์„œ ๋‹ค์ค‘๋ชจ๋“œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(MLLM)์˜ ์„ฑ๋Šฅ ์ €ํ•˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ DocSeeker ๋ชจ๋ธ์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. DocSeeker๋Š” ๋ถ„์„, ์ง€์—ญํ™”, ์ถ”๋ก ์˜ ๊ตฌ์กฐํ™”๋œ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ํ†ตํ•ด ๋ฌธ์„œ ๋‚ด ํ•ต์‹ฌ ์ •๋ณด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฐพ์•„๋‚ด๊ณ  ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋‘ ๋‹จ๊ณ„ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ์™€ ๋ฉ”๋ชจ๋ฆฌ ์ œ์•ฝ์„ ์™„ํ™”ํ•˜๋Š” ์ „๋žต์„ ํ†ตํ•ด DocSeeker๋Š” ๊ธด ๋ฌธ์„œ ์ดํ•ด ์ž‘์—…์—์„œ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
DocSeeker๋Š” ๊ธด ๋ฌธ์„œ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์‹ ํ˜ธ ๋Œ€ ์žก์Œ๋น„(SNR) ์ €ํ•˜ ๋ฐ ๊ฐ๋… ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๋ฉฐ, ํŠนํžˆ ์งง์€ ๋ฌธ์„œ์—์„œ ํ•™์Šตํ•œ ๋ชจ๋ธ์ด ๋งค์šฐ ๊ธด ๋ฌธ์„œ๊นŒ์ง€ ์ผ๋ฐ˜ํ™”๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๊ตฌ์กฐํ™”๋œ ์ถ”๋ก  ์›Œํฌํ”Œ๋กœ์šฐ๋Š” ๋‹จ์ˆœํžˆ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ๊ทผ๊ฑฐ ์ฆ๊ฑฐ๋ฅผ ์ •ํ™•ํžˆ ์ฐพ์•„๋‚ด๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜์—ฌ MLLM์˜ ์‹ ๋ขฐ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.
โ€ข
ํ˜„์žฌ ๋ชจ๋ธ์€ ์ฃผ๋กœ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜์˜ ๊ธด ๋ฌธ์„œ ์ดํ•ด์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ์‹ค์ œ ์ ์šฉ ์‹œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ๋‚˜ ๋ณต์žกํ•œ ์‹œ๊ฐ์  ์ •๋ณด์— ๋Œ€ํ•œ ์ดํ•ด๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘