Sign In

Distilling Linearized Behavior for Effective Task Arithmetic

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Thomas Sommariva, Francesca Morandi, Simone Calderara, Angelo Porrello

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” 사전 ν•™μŠ΅λœ λͺ¨λΈμ˜ μž‘μ—… 벑터(task vector)λ₯Ό 효과적으둜 ν•©μ„±ν•˜κ³  λΆ„λ¦¬ν•˜λŠ” μƒˆλ‘œμš΄ 방법을 μ œμ•ˆν•œλ‹€. κΈ°μ‘΄ μ„ ν˜• λ―Έμ„Έ μ‘°μ •(linear fine-tuning) λ°©μ‹μ˜ ν‘œν˜„λ ₯ ν•œκ³„μ™€ μΆ”λ‘  μ‹œ 높은 계산 λΉ„μš© 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, ν™œμ„±ν™” 곡간(activation space)μ—μ„œμ˜ μ œμ•½μ„ 톡해 μ„ ν˜•μ„±μ„ κ°•μ œν•˜λŠ” 기법을 λ„μž…ν•œλ‹€. 이λ₯Ό 톡해 컀널 μ •κ·œν™”(curvature-regularization)된 μ„ ν˜• ꡐ사 λͺ¨λΈμ˜ ν‘œν˜„μ„ λΉ„μ„ ν˜• 학생 λͺ¨λΈλ‘œ 증λ₯˜(distill)ν•˜μ—¬, μΆ”λ‘  μ‹œ μ„±λŠ₯ μ €ν•˜ 없이 μž‘μ—… μ—°μ‚°(task arithmetic)의 νš¨κ³Όμ™€ μ„±λŠ₯을 λͺ¨λ‘ ν™•λ³΄ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•œλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ„ ν˜• λ―Έμ„Έ μ‘°μ •μ˜ 핡심 μž₯점인 μž‘μ—… λ²‘ν„°μ˜ 뢄리성과 κ°„μ„­ 저항성을 μœ μ§€ν•˜λ©΄μ„œ, λΉ„μ„ ν˜• λ―Έμ„Έ μ‘°μ •μ˜ ν‘œν˜„λ ₯κ³Ό νš¨μœ¨μ„±μ„ κ²°ν•©ν•  수 μžˆλ‹€.
β€’
ν™œμ„±ν™” κ³΅κ°„μ—μ„œμ˜ μ œμ•½μ„ 톡해 νŒŒλΌλ―Έν„° κ³΅κ°„μ—μ„œμ˜ μ„ ν˜•μ„±μ„ 효과적으둜 λ‹¬μ„±ν•¨μœΌλ‘œμ¨, κΈ°μ‘΄ μ„ ν˜• λͺ¨λΈμ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³  μ‹€μš©μ„±μ„ λ†’μ˜€λ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” μΆ”λ‘  μ‹œ 좔가적인 계산 λΉ„μš© 없이 λͺ¨λΈ νŽΈμ§‘ 및 μž‘μ—… 벑터 합성을 μœ„ν•œ 효과적인 방법을 μ œμ‹œν•˜λ©°, μ΄λŠ” λΉ„μ „ 및 μ–Έμ–΄ λΆ„μ•Ό λ²€μΉ˜λ§ˆν¬μ—μ„œ μž…μ¦λ˜μ—ˆλ‹€.
β€’
증λ₯˜ κ³Όμ • 및 ꡐ사/학생 λͺ¨λΈ 섀계에 λŒ€ν•œ 좔가적인 탐색과 μ΅œμ ν™”κ°€ ν–₯ν›„ 연ꡬ κ³Όμ œκ°€ 될 수 μžˆλ‹€.
πŸ‘