Sign In

When Shared Knowledge Hurts: Spectral Over-Accumulation in Model Merging

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yayuan Li, Ze Peng, Jian Zhang, Jintao Guo, Yue Duan, Yinghuan Shi

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ‹€μˆ˜μ˜ νŒŒμΈνŠœλ‹λœ λͺ¨λΈμ„ κ²°ν•©ν•˜λŠ” λͺ¨λΈ 병합 κΈ°λ²•μ—μ„œ λ°œμƒν•˜λŠ” λ¬Έμ œμ μ„ λ‹€λ£Ήλ‹ˆλ‹€. 특히, μž‘μ—… μ—…λ°μ΄νŠΈ κ°„μ˜ 좩돌 해결에 μ§‘μ€‘ν–ˆλ˜ κΈ°μ‘΄ 방법듀과 달리, κ³΅μœ λ˜λŠ” 지식이 κ³Όλ„ν•˜κ²Œ λˆ„μ λ˜μ–΄ λ°œμƒν•˜λŠ” 'Spectral Over-Accumulation' 문제λ₯Ό μ§€μ ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ €μžλ“€μ€ κ³΅μœ λ˜λŠ” μŠ€νŽ™νŠΈλŸΌ λ°©ν–₯(μ •λ ¬λœ 특이 벑터)이 κ²ΉμΉ  λ•Œ λ°œμƒν•˜λŠ” νŠΉμ΄κ°’μ˜ κ³ΌλŒ€ν‰κ°€λ₯Ό λ³΄μ •ν•˜λŠ” 'Singular Value Calibration (SVC)'μ΄λΌλŠ” ν•™μŠ΅ 및 데이터가 ν•„μš” μ—†λŠ” ν›„μ²˜λ¦¬ 기법을 μ œμ•ˆν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λͺ¨λΈ 병합 μ‹œ 곡유 μ§€μ‹μ˜ κ³Όλ„ν•œ 좕적이 μ„±λŠ₯ μ €ν•˜μ˜ 원인이 될 수 μžˆμŒμ„ 졜초둜 규λͺ…ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆν•˜λŠ” SVC 기법은 ν•™μŠ΅ λ˜λŠ” 데이터 없이 λͺ¨λΈ 병합 결과의 μŠ€νŽ™νŠΈλŸΌ κ· ν˜•μ„ νšŒλ³΅μ‹œμΌœ μ„±λŠ₯을 크게 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
SVCλŠ” 특히 Task Arithmeticκ³Ό 같은 κΈ°μ‘΄ λͺ¨λΈ 병합 κΈ°λ²•μ˜ μ„±λŠ₯을 13% 이상 κ°œμ„ ν•˜λ©°, λ‹€μ–‘ν•œ λΉ„μ „ 및 μ–Έμ–΄ λ²€μΉ˜λ§ˆν¬μ—μ„œ μ΅œμ‹  μ„±λŠ₯을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
SVCλŠ” νŠΉμ΄κ°’λ§Œμ„ μˆ˜μ •ν•˜λ―€λ‘œ, κΈ°μ‘΄ 병합 λ°©μ‹μ˜ 틀을 μœ μ§€ν•˜λ©΄μ„œλ„ 효율적으둜 μ„±λŠ₯을 κ°œμ„ ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘