Sign In

Securing the Floor and Raising the Ceiling: A Merging-based Paradigm for Multi-modal Search Agents

Created by
  • Haebom
Category
Empty

μ €μž

Zhixiang Wang, Jingxuan Xu, Dajun Chen, Yunfang Wu, Wei Jiang, Yong Li

πŸ’‘ κ°œμš”

λ³Έ 논문은 κΈ°μ‘΄ Vision-Language Model (VLM) 기반 닀쀑 λͺ¨λ‹¬ 검색 μ—μ΄μ „νŠΈμ˜ 높은 ν›ˆλ ¨ λΉ„μš©, λΆˆμ•ˆμ •μ„±, μ½œλ“œ μŠ€νƒ€νŠΈ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ ν›ˆλ ¨ μ—†λŠ” νŒ¨λŸ¬λ‹€μž„μ„ μ œμ•ˆν•©λ‹ˆλ‹€. ν…μŠ€νŠΈ 기반 검색 μ—μ΄μ „νŠΈμ™€ VLM을 효과적으둜 μœ΅ν•©ν•˜λŠ” λͺ¨λΈ 병합 기법을 톡해 λ³„λ„μ˜ 닀쀑 λͺ¨λ‹¬ ν›ˆλ ¨ 데이터 없이도 자율적인 검색 λŠ₯λ ₯을 λΆ€μ—¬ν•©λ‹ˆλ‹€. 특히, 졜적 λ‡Œ 병합(OBM)을 톡해 λͺ¨λΈ κ°„ νŒŒλΌλ―Έν„° 간섭을 μ΅œμ†Œν™”ν•˜κ³  μž‘μ—…λ³„ μ€‘μš” νŒŒλΌλ―Έν„°λ₯Ό μ„ λ³„ν•˜μ—¬ μ„±λŠ₯을 μ΅œμ ν™”ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν›ˆλ ¨ λΉ„μš© 절감 및 λ²”μš©μ„± 확보: λͺ¨λΈ 병합을 톡해 사전 ν›ˆλ ¨λœ VLM을 μž¬ν›ˆλ ¨ 없이도 닀쀑 λͺ¨λ‹¬ 검색 μ—μ΄μ „νŠΈλ‘œ ν™œμš©ν•  수 μžˆμ–΄ ν›ˆλ ¨ λΉ„μš©μ„ 크게 μ ˆκ°ν•˜κ³  μ½œλ“œ μŠ€νƒ€νŠΈ 문제λ₯Ό μ™„ν™”ν•©λ‹ˆλ‹€.
β€’
μ„±λŠ₯ ν–₯상 및 효율적인 ν•™μŠ΅: 졜적 λ‡Œ 병합(OBM)은 μ€‘μš” νŒŒλΌλ―Έν„°μ— μ§‘μ€‘ν•¨μœΌλ‘œμ¨ μ œλ‘œμƒ· μ„±λŠ₯을 ν–₯μƒμ‹œν‚€κ³ , κΈ°μ‘΄ VLM μ΄ˆκΈ°ν™” 방식보닀 더 λΉ λ₯΄κ³  높은 μ„±λŠ₯에 λ„λ‹¬ν•˜λ„λ‘ λ•μŠ΅λ‹ˆλ‹€.
β€’
ν•œκ³„μ : λͺ¨λΈ λ³‘ν•©μ˜ νš¨κ³ΌλŠ” μœ΅ν•©λ˜λŠ” 두 λͺ¨λΈμ˜ μƒν˜Έ μ—°κ΄€μ„± 및 νƒœμŠ€ν¬μ˜ λ³΅μž‘μ„±μ— 따라 λ‹¬λΌμ§ˆ 수 있으며, OBM μ•Œκ³ λ¦¬μ¦˜ λ˜ν•œ μ μ ˆν•œ 보정 μƒ˜ν”Œμ…‹ 선정에 영ν–₯을 받을 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘