Sign In

Learning Relative Representations for Fine-Grained Multimodal Alignment with Limited Data

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Shiwon Kim, Yu Rang Park

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” 데이터가 λΆ€μ‘±ν•œ ν™˜κ²½μ—μ„œ λ³„λ„λ‘œ 사전 ν•™μŠ΅λœ 단일 λͺ¨λ‹¬ 인코더λ₯Ό 효율적으둜 μ •λ ¬ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ 사후 닀쀑 λͺ¨λ‹¬ μ •λ ¬ 방법둠을 μ œμ•ˆν•©λ‹ˆλ‹€. κΈ°μ‘΄ 방법이 전역적 ν‘œν˜„μ— μ΄ˆμ μ„ 맞좰 λ―Έμ„Έν•œ 패치-토큰 관계λ₯Ό λ†“μΉ˜λŠ” ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³ μž, λ³Έ μ—°κ΅¬λŠ” ν•™μŠ΅ κ°€λŠ₯ν•œ 액컀λ₯Ό ν™œμš©ν•˜μ—¬ 토큰 μˆ˜μ€€μ˜ μƒν˜Έ λͺ¨λ‹¬ ꡬ쑰λ₯Ό ν•™μŠ΅ν•˜λŠ” μƒλŒ€ ν‘œν˜„ 방식을 λ„μž…ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 적은 μ–‘μ˜ νŽ˜μ–΄λ§λœ λ°μ΄ν„°λ§ŒμœΌλ‘œλ„ μ •λ°€ν•œ ꡐ차 λͺ¨λ‹¬ λ§€μΉ­ λŠ₯λ ₯을 크게 ν–₯μƒμ‹œμΌœ, μ œλ‘œμƒ· λΆ„λ₯˜, ꡐ차 λͺ¨λ‹¬ 검색, μ œλ‘œμƒ· λΆ„ν•  λ“±μ˜ μž‘μ—…μ—μ„œ κΈ°μ‘΄ 방법 λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
데이터가 μ œν•œμ μΈ μƒν™©μ—μ„œ λ³„λ„λ‘œ 사전 ν•™μŠ΅λœ λͺ¨λΈλ“€μ„ 효과적으둜 μ •λ ¬ν•˜κΈ° μœ„ν•΄ 전역적 ν‘œν˜„λ³΄λ‹€λŠ” 토큰 μˆ˜μ€€μ˜ λ―Έμ„Έν•œ ꡬ쑰 ν•™μŠ΅μ΄ μ€‘μš”ν•¨μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
적은 수의 νŽ˜μ–΄λ§λœ 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬λ„ ν•™μŠ΅ κ°€λŠ₯ν•œ 액컀λ₯Ό 톡해 κ°•λ ₯ν•œ 닀쀑 λͺ¨λ‹¬ ν‘œν˜„μ„ ν•™μŠ΅ν•  수 μžˆμŒμ„ μž…μ¦ν•©λ‹ˆλ‹€.
β€’
λ³Έ 방법둠은 λ³„λ„μ˜ νˆ¬μ‚¬μΈ΅ 없이 액컀 ν•™μŠ΅λ§ŒμœΌλ‘œλ„ μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상을 이루어, 효율적인 닀쀑 λͺ¨λ‹¬ μ •λ ¬μ˜ κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” 더 λ³΅μž‘ν•œ λ„λ©”μΈμ΄λ‚˜ 더 적은 데이터 ν™˜κ²½μ—μ„œμ˜ 적용 κ°€λŠ₯성을 νƒμƒ‰ν•˜κ³ , μ•΅μ»€μ˜ 개수 및 ν•™μŠ΅ μ „λž΅ μ΅œμ ν™” λ“±μ˜ 좔가적인 κ°œμ„  λ°©μ•ˆμ„ 연ꡬ할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘