Sign In

Hyperdimensional Cross-Modal Alignment of Frozen Language and Image Models for Efficient Image Captioning

Created by
  • Haebom
Category
Empty

μ €μž

Abhishek Dalvi, Vasant Honavar

πŸ’‘ κ°œμš”

λ³Έ 논문은 사전 ν•™μŠ΅λœ μ–Έμ–΄ 및 이미지 λͺ¨λΈμ„ μˆ˜μ •ν•˜μ§€ μ•Šκ³ λ„ 효율적으둜 ꡐ차 λͺ¨λ‹¬ 정렬을 λ‹¬μ„±ν•˜λŠ” HDFLIM ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. HDFLIM은 고차원 μ»΄ν“¨νŒ… 기법을 μ‚¬μš©ν•˜μ—¬ 각 λͺ¨λ‹¬λ¦¬ν‹°μ˜ μž„λ² λ”©μ„ 곡유 고차원 κ³΅κ°„μœΌλ‘œ νˆ¬μ˜ν•˜κ³ , λ‹¨μˆœν•œ 기호 μ—°μ‚°(κ²°ν•©, λ²ˆλ“€λ§, μœ μ‚¬λ„ 검색)을 톡해 μ—°κ΄€λœ ꡐ차 λͺ¨λ‹¬ ν‘œν˜„μ„ μƒμ„±ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 κ³„μ‚°λŸ‰μ΄ λ§Žμ€ λ―Έμ„Έ μ‘°μ • 없이도 이미지 캑셔닝 μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
사전 ν•™μŠ΅λœ λŒ€κ·œλͺ¨ 단일 λͺ¨λ‹¬ λͺ¨λΈ κ°„μ˜ 의미둠적 ν˜Έν™˜μ„±μ„ ν™œμš©ν•˜μ—¬, λͺ¨λΈ 자체λ₯Ό μˆ˜μ •ν•˜μ§€ μ•Šκ³ λ„ ꡐ차 λͺ¨λ‹¬ 정렬이 κ°€λŠ₯함을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
고차원 μ»΄ν“¨νŒ…μ˜ 기호 연산을 톡해 효율적이고 νŒŒλΌλ―Έν„° μ—…λ°μ΄νŠΈκ°€ μ—†λŠ” ꡐ차 λͺ¨λ‹¬ λ§€ν•‘ 방법둠을 μ œμ‹œν•˜μ—¬, 기쑴의 계산 집약적인 λ―Έμ„Έ μ‘°μ • 방식에 λŒ€ν•œ λŒ€μ•ˆμ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μž¬ν•™μŠ΅ λŒ€μ‹  κ΅¬μ‘°ν™”λœ ν‘œν˜„ 맀핑을 톡해 사전 ν•™μŠ΅λœ λͺ¨λΈμ„ ν†΅ν•©ν•˜λŠ” μƒˆλ‘œμš΄ νŒ¨λŸ¬λ‹€μž„μ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
고차원 κ³΅κ°„μ—μ„œμ˜ μ—°μ‚° λ³΅μž‘μ„±κ³Ό μƒμ„±λ˜λŠ” μΊ‘μ…˜μ˜ λ‹€μ–‘μ„± 및 μ°½μ˜μ„±μ— λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘