Sign In

Efficient Table Retrieval and Understanding with Multimodal Large Language Models

Created by
  • Haebom
Category
Empty

μ €μž

Zhuoyan Xu, Haoyang Fang, Boran Han, Bonan Min, Bernie Wang, Cuixiong Hu, Shuai Zhang

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μ‹€μ œ ν™˜κ²½μ—μ„œ 이미지 ν˜•νƒœλ‘œ μ‘΄μž¬ν•˜λŠ” ν…Œμ΄λΈ” λ°μ΄ν„°μ˜ 검색 및 이해에 λŒ€ν•œ 어렀움을 ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. μ œμ•ˆν•˜λŠ” TabRAG ν”„λ ˆμž„μ›Œν¬λŠ” μ‹œκ°-ν…μŠ€νŠΈ 기반 λͺ¨λΈμ„ ν™œμš©ν•˜μ—¬ 후보 ν…Œμ΄λΈ”μ„ κ²€μƒ‰ν•˜κ³ , λ©€ν‹°λͺ¨λ‹¬ λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈ(MLLM)을 톡해 후보 ν…Œμ΄λΈ”μ˜ μˆœμœ„λ₯Ό μž¬μ‘°μ •ν•˜λ©°, μ΅œμ’…μ μœΌλ‘œ μ„ νƒλœ ν…Œμ΄λΈ”μ„ 기반으둜 닡변을 μƒμ„±ν•˜λŠ” 3단계 μ ‘κ·Ό 방식을 μ‚¬μš©ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 λŒ€κ·œλͺ¨ ν…Œμ΄λΈ” 이미지 μ»¬λ ‰μ…˜μ—μ„œλ„ μ‚¬μš©μž μ§ˆμ˜μ— λŒ€ν•œ μ •ν™•ν•œ λ‹΅λ³€ 생성이 κ°€λŠ₯함을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
이미지 기반 ν…Œμ΄λΈ” 데이터에 λŒ€ν•œ 효과적인 검색 및 이해λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•˜λŠ” μ‹€μš©μ μΈ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
κΈ°μ‘΄ 방법둠 λŒ€λΉ„ 검색 정확도와 λ‹΅λ³€ 정확도λ₯Ό 크게 ν–₯μƒμ‹œμΌœ μ‹€μ œ μ‘μš© κ°€λŠ₯성을 λ†’μž…λ‹ˆλ‹€.
β€’
λŒ€κ·œλͺ¨ 데이터셋 ꡬ좕 및 μ‹€ν—˜μ„ 톡해 μ œμ•ˆ λ°©λ²•λ‘ μ˜ μš°μˆ˜μ„±μ„ κ°κ΄€μ μœΌλ‘œ κ²€μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” 더 λ³΅μž‘ν•œ ν…Œμ΄λΈ” ꡬ쑰와 λ‹€μ–‘ν•œ λ¬Έμ„œ ν˜•νƒœμ— λŒ€ν•œ 처리 λŠ₯λ ₯ κ°•ν™”, μ‹€μ‹œκ°„ 검색 μ„±λŠ₯ ν–₯상 등을 κ³ λ €ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘