Sign In

M3DocDep: Multi-modal, Multi-page, Multi-document Dependency Chunking with Large Vision-Language Models

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Joongmin Shin, Jeongbae Park, Jaehyung Seo, Heuiseok Lim

๐Ÿ’ก ๊ฐœ์š”

์ด ์—ฐ๊ตฌ๋Š” ๊ธธ๊ณ  ์—ฌ๋Ÿฌ ํŽ˜์ด์ง€๋กœ ๊ตฌ์„ฑ๋œ ์‚ฐ์—… ๋ฌธ์„œ์—์„œ ์ •๋ณด ๊ฒ€์ƒ‰(RAG)์˜ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ๋ฌธ์„œ์˜ ์‹ค์ œ ๊ตฌ์กฐ๋ฅผ ๋”ฐ๋ฅด๋Š” ์ฒญํ‚น(chunking) ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ํ…์ŠคํŠธ ์ค‘์‹ฌ ์ฒญํ‚น ๋ฐฉ์‹์ด ํŽ˜์ด์ง€ ๊ฐ„ ๊ด€๊ณ„, ๊ทธ๋ฆผ/ํ‘œ์™€ ์บก์…˜ ์—ฐ๊ฒฐ ๋“ฑ์„ ๋†“์ณ ๋ฐœ์ƒํ•˜๋Š” ๋ฌธ์ œ์ ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, M3DocDep๋Š” ๊ฑฐ๋Œ€ ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ(LVLM)์„ ํ™œ์šฉํ•˜์—ฌ ๋ธ”๋ก ์ˆ˜์ค€์˜ ์˜์กด์„ฑ์„ ๋จผ์ € ๋ณต์›ํ•œ ํ›„ ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฌธ์„œ๋ฅผ ํŠธ๋ฆฌ ๊ตฌ์กฐ๋กœ ์ฒญํ‚นํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋ฌธ์„œ ๊ตฌ์กฐ๋ฅผ ๋” ์ž˜ ๋ฐ˜์˜ํ•˜๋Š” ์ฒญํฌ๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ๊ฒ€์ƒ‰ ๋ฐ ๋‹ต๋ณ€ ํ’ˆ์งˆ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋ฌธ์„œ ๊ตฌ์กฐ ๊ธฐ๋ฐ˜ ์ฒญํ‚น์˜ ์ค‘์š”์„ฑ: ์ •๋ณด ๊ฒ€์ƒ‰ ๋ฐ ์ƒ์„ฑ ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ์€ ๋ฌธ์„œ์˜ ๋…ผ๋ฆฌ์  ๊ตฌ์กฐ๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ํŒŒ์•…ํ•˜๊ณ  ์ฒญํ‚นํ•˜๋Š”์ง€์— ํฌ๊ฒŒ ์ขŒ์šฐ๋œ๋‹ค๋Š” ์ ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LVLM์˜ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ: ํ…์ŠคํŠธ ์ •๋ณด๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์‹œ๊ฐ ์ •๋ณด(๋ ˆ์ด์•„์›ƒ, ์ด๋ฏธ์ง€ ๋“ฑ)๋ฅผ ํ•จ๊ป˜ ํ™œ์šฉํ•˜๋Š” LVLM์ด ๋ณต์žกํ•œ ๋ฌธ์„œ ๊ตฌ์กฐ ์ดํ•ด์— ํšจ๊ณผ์ ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
๋ณต์žกํ•œ ๋ฌธ์„œ ๊ตฌ์กฐ ์ฒ˜๋ฆฌ์˜ ์–ด๋ ค์›€: ์‹ค์ œ ์‚ฐ์—… ๋ฌธ์„œ์˜ ๋‹ค์–‘ํ•œ ๊ตฌ์กฐ์™€ ์ •๋ณด ๊ฐ„์˜ ๋ณต์žกํ•œ ์˜์กด์„ฑ์„ ์™„๋ฒฝํ•˜๊ฒŒ ๋ณต์›ํ•˜๊ณ  ์ฒญํ‚นํ•˜๋Š” ๊ฒƒ์€ ์—ฌ์ „ํžˆ ๋„์ „์ ์ธ ๊ณผ์ œ์ด๋ฉฐ, ํ–ฅํ›„ ๋”์šฑ ์ •๊ตํ•œ ๋ชจ๋ธ ๋ฐ ๋ฐฉ๋ฒ•๋ก  ๊ฐœ๋ฐœ์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘