haebom
Sign In
DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding
Created by
Haebom
Category
Empty
์ ์
Hao Yan, Yuliang Liu, Xingchen Liu, Yuyi Zhang, Minghui Liao, Jihao Wu, Wei Chen, Xiang Bai
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๊ธด ๋ฌธ์ ์ดํด์์ ๋ค์ค๋ชจ๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(MLLM)์ ์ฑ๋ฅ ์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ DocSeeker ๋ชจ๋ธ์ ์๊ฐํฉ๋๋ค. DocSeeker๋ ๋ถ์, ์ง์ญํ, ์ถ๋ก ์ ๊ตฌ์กฐํ๋ ์ํฌํ๋ก์ฐ๋ฅผ ํตํด ๋ฌธ์ ๋ด ํต์ฌ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ์ฐพ์๋ด๊ณ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ต๋ณ์ ์์ฑํฉ๋๋ค. ๋ ๋จ๊ณ ํ์ต ํ๋ ์์ํฌ์ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ ์ํํ๋ ์ ๋ต์ ํตํด DocSeeker๋ ๊ธด ๋ฌธ์ ์ดํด ์์ ์์ ํ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
DocSeeker๋ ๊ธด ๋ฌธ์์์ ๋ฐ์ํ๋ ์ ํธ ๋ ์ก์๋น(SNR) ์ ํ ๋ฐ ๊ฐ๋ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ํนํ ์งง์ ๋ฌธ์์์ ํ์ตํ ๋ชจ๋ธ์ด ๋งค์ฐ ๊ธด ๋ฌธ์๊น์ง ์ผ๋ฐํ๋ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
โข
์ ์๋ ๊ตฌ์กฐํ๋ ์ถ๋ก ์ํฌํ๋ก์ฐ๋ ๋จ์ํ ๋ต๋ณ์ ์์ฑํ๋ ๊ฒ์ ๋์ด, ๊ทผ๊ฑฐ ์ฆ๊ฑฐ๋ฅผ ์ ํํ ์ฐพ์๋ด๋ ๋ฅ๋ ฅ์ ๊ฐํํ์ฌ MLLM์ ์ ๋ขฐ์ฑ์ ๋์ ๋๋ค.
โข
ํ์ฌ ๋ชจ๋ธ์ ์ฃผ๋ก ํ ์คํธ ๊ธฐ๋ฐ์ ๊ธด ๋ฌธ์ ์ดํด์ ์ด์ ์ ๋ง์ถ๊ณ ์์ผ๋ฉฐ, ์ค์ ์ ์ฉ ์ ๋ฐ์ํ ์ ์๋ ๋ค์ํ ์ ํ์ ๋น์ ํ ๋ฐ์ดํฐ๋ ๋ณต์กํ ์๊ฐ์ ์ ๋ณด์ ๋ํ ์ดํด๋๋ฅผ ๋์ด๊ธฐ ์ํ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage