Sign In

Reason to Contrast: A Cascaded Multimodal Retrieval Framework

Created by
  • Haebom
Category
Empty

μ €μž

Xuanming Cui, Hong-You Chen, Hao Yu, Hao Yuan, Zihao Wang, Shlok Kumar Mishra, Hanchao Yu, Yonghuan Yang, Jun Xiao, Ser-Nam Lim, Jianpeng Cheng, Qi Guo, Xiangjun Fan

πŸ’‘ κ°œμš”

λ³Έ 논문은 기쑴의 μž„λ² λ”© 차원에 μ˜μ‘΄ν•˜λŠ” 닀쀑 λͺ¨λ‹¬ 검색 μ‹œμŠ€ν…œμ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄, 좔가적인 정보 토큰 생성을 톡해 검색 μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” Think-Then-Embed (TTE)의 후속 연ꡬ인 TTE-v2λ₯Ό μ œμ•ˆν•œλ‹€. TTE-v2λŠ” λͺ¨λΈμ΄λ‚˜ μž„λ² λ”© 크기가 μ•„λ‹Œ, 좔가적인 토큰 μ˜ˆμ‚°μ— κΈ°λ°˜ν•œ μΆ”λ‘  μ€‘μ‹¬μ˜ μ„±λŠ₯ ν™•μž₯을 λ„μž…ν•˜λ©°, μΆ”λ‘  단계λ₯Ό μΆ”κ°€ν•˜μ—¬ 쿼리와 후보 κ°„μ˜ μƒν˜Έμž‘μš©μ„ λ”μš± μ •κ΅ν•˜κ²Œ λ§Œλ“ λ‹€. μ΄λŸ¬ν•œ 계단식 μ„€κ³„λŠ” 쀑간 μΆ”λ‘  ν† ν°μ˜ ν™•μž₯을 톡해 ν…ŒμŠ€νŠΈ μ‹œ μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν•˜λ©°, MMEB-V2 λ²€μΉ˜λ§ˆν¬μ—μ„œ μƒˆλ‘œμš΄ 졜고 μ„±λŠ₯을 κΈ°λ‘ν–ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
좔가적인 μž…λ ₯ 토큰 μ˜ˆμ‚°μ„ ν™œμš©ν•˜μ—¬ 닀쀑 λͺ¨λ‹¬ 검색 μ„±λŠ₯을 ν™•μž₯ν•˜λŠ” μƒˆλ‘œμš΄ νŒ¨λŸ¬λ‹€μž„μ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μΆ”λ‘  단계λ₯Ό ν†΅ν•œ μž¬μˆœμœ„ν™”(reranking)κ°€ 쿼리-후보 μƒν˜Έμž‘μš©μ„ ν’λΆ€ν•˜κ²Œ ν•˜κ³ , ν•˜λ“œ λ„€κ±°ν‹°λΈŒ λ§ˆμ΄λ‹ 및 잘λͺ»λœ λ„€κ±°ν‹°λΈŒ 필터링을 μœ„ν•œ λ―Έμ„Έν•œ 감독 κΈ°λŠ₯을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
λͺ¨λΈ ν¬κΈ°λ‚˜ μž„λ² λ”© 차원 증가 없이도 토큰 μˆ˜μ€€μ˜ ν™•μž₯을 톡해 경쟁λ ₯ μžˆλŠ” μ„±λŠ₯을 달성할 수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ νš¨μœ¨μ„± 및 μΌλ°˜μ„±μ„ λ‹€μ–‘ν•œ 닀쀑 λͺ¨λ‹¬ 검색 μž‘μ—… 및 λ°μ΄ν„°μ…‹μ—μ„œ μΆ”κ°€μ μœΌλ‘œ 검증할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘