Sign In

Multi-layer Cross-Attention is Provably Optimal for Multi-modal In-context Learning

Created by
  • Haebom
Category
Empty

μ €μž

Nicholas Barnfield, Subhabrata Sen, Pragya Sur

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” ν˜„λŒ€ 트랜슀포머 기반 μ‹ κ²½λ§μ—μ„œ λ©€ν‹°λͺ¨λ‹¬ 데이터에 λŒ€ν•œ μΈμ»¨ν…μŠ€νŠΈ ν•™μŠ΅(In-context Learning)의 이둠적 κΈ°λ°˜μ„ νƒκ΅¬ν•©λ‹ˆλ‹€. 잠재 μš”μΈ λͺ¨λΈμ—μ„œ λ°œμƒν•˜λŠ” λ©€ν‹°λͺ¨λ‹¬ 데이터λ₯Ό κ°€μ •ν•˜κ³ , 단일 계측 μ„ ν˜• μ…€ν”„ μ–΄ν…μ…˜μ΄ 베이즈 졜적 μ˜ˆμΈ‘μ„ λ‹¬μ„±ν•˜μ§€ λͺ»ν•¨μ„ 증λͺ…ν•©λ‹ˆλ‹€. 이에 λŒ€ν•œ ν•΄κ²°μ±…μœΌλ‘œ, λ‹€μΈ΅ ꡐ차 μ–΄ν…μ…˜(Cross-Attention) λ©”μ»€λ‹ˆμ¦˜μ„ μ œμ•ˆν•˜λ©°, 이λ₯Ό 경사도 흐름(gradient flow)으둜 μ΅œμ ν™”ν•  λ•Œ 베이즈 졜적 μ„±λŠ₯을 달성함을 이둠적으둜 μž…μ¦ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μΈμ»¨ν…μŠ€νŠΈ ν•™μŠ΅μ—μ„œ λ©€ν‹°λͺ¨λ‹¬ 데이터 처리λ₯Ό μœ„ν•œ 이둠적 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•˜κ³ , ꡐ차 μ–΄ν…μ…˜μ˜ νš¨μš©μ„±μ„ 증λͺ…ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
심측(depth) ꡬ쑰가 μΈμ»¨ν…μŠ€νŠΈ ν•™μŠ΅ μ„±λŠ₯ ν–₯상에 기여함을 이둠적으둜 κ°•μ‘°ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” μ„ ν˜•ν™”λœ ꡐ차 μ–΄ν…μ…˜μ„ κ°€μ •ν•˜λ©°, μ‹€μ œ 트랜슀포머 μ•„ν‚€ν…μ²˜μ˜ λ³΅μž‘ν•œ λΉ„μ„ ν˜•μ„±μ„ μ™„μ „νžˆ λ°˜μ˜ν•˜μ§€λŠ” λͺ»ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘