Sign In

CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zhipeng Qian, Zihan Liang, Yufei Ma, Ben Chen, Huangyu Dai, Yiwei Ma, Jiayi Ji, Chenyi Lei, Han Li, Xiaoshuai Sun

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ°Έμ‘° 이미지와 μ‘°μž‘ ν…μŠ€νŠΈλ₯Ό ν•¨κ»˜ μ‚¬μš©ν•˜μ—¬ 이미지λ₯Ό κ²€μƒ‰ν•˜λŠ” μ‘°ν•© 이미지 검색(CIR)μ—μ„œ λ°œμƒν•˜λŠ” ν‘œν˜„ 곡간 뢈일치 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ CSMCIRμ΄λΌλŠ” 톡합 ν‘œν˜„ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ 방법은 λ©€ν‹°λ ˆλ²¨ Chain-of-Thought(MCoT) ν”„λ‘¬ν”„νŒ…μœΌλ‘œ νƒ€κ²Ÿ 이미지에 λŒ€ν•œ 의미둠적으둜 ν˜Έν™˜ κ°€λŠ₯ν•œ μΊ‘μ…˜μ„ μƒμ„±ν•˜κ³ , λ™μΌν•œ Q-Formerλ₯Ό κ³΅μœ ν•˜λŠ” λŒ€μΉ­ λ“€μ–Ό νƒ€μ›Œ ꡬ쑰둜 μΌκ΄€λœ νŠΉμ§• ν‘œν˜„μ„ 보μž₯ν•©λ‹ˆλ‹€. λ˜ν•œ, μ—­μ—”νŠΈλ‘œν”Ό 기반 동적 λ©”λͺ¨λ¦¬ 뱅크λ₯Ό ν™œμš©ν•˜μ—¬ κ³ ν’ˆμ§ˆμ˜ μŒμ„± μƒ˜ν”Œμ„ μ œκ³΅ν•˜λ©°, λ„€ κ°€μ§€ 벀치마크 λ°μ΄ν„°μ…‹μ—μ„œ μ΅œμ²¨λ‹¨ μ„±λŠ₯을 λ‹¬μ„±ν•˜κ³  ν›ˆλ ¨ νš¨μœ¨μ„±μ„ ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ„œλ‘œ λ‹€λ₯Έ λͺ¨λ‹¬λ¦¬ν‹° κ°„μ˜ ν‘œν˜„ 곡간 뢈일치λ₯Ό 효과적으둜 ν•΄κ²°ν•˜μ—¬ μ‘°ν•© 이미지 검색 μ„±λŠ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ©€ν‹°λ ˆλ²¨ CoT ν”„λ‘¬ν”„νŒ…κ³Ό λŒ€μΉ­ λ“€μ–Ό νƒ€μ›Œ κ΅¬μ‘°λŠ” λͺ¨λΈμ˜ ν›ˆλ ¨ νš¨μœ¨μ„±κ³Ό μΌλ°˜ν™” λŠ₯λ ₯을 λ†’μž…λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λ©”λͺ¨λ¦¬ 뱅크 μ „λž΅μ€ λ™μ μœΌλ‘œ λ°œμ „ν•˜λŠ” λͺ¨λΈ μƒνƒœμ— 맞좰 κ³ ν’ˆμ§ˆμ˜ μŒμ„± μƒ˜ν”Œμ„ μ œκ³΅ν•˜μ—¬ 검색 정확도λ₯Ό λ†’μž…λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ•ˆλœ ν”„λ ˆμž„μ›Œν¬λŠ” νŠΉμ • λ©€ν‹°λͺ¨λ‹¬ LLM λͺ¨λΈμ— λŒ€ν•œ μ˜μ‘΄μ„±μ„ κ°€μ§ˆ 수 있으며, λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜μ— λŒ€ν•œ μΌλ°˜ν™” κ°€λŠ₯성에 λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘