Sign In

Hybrid-LoRA: Bridging Full Fine-Tuning and Low-Rank Adaptation for Post-Training

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Chengqian Zhang, Wei Zhu, Kyumin Lee

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 λ³΅μž‘ν•œ 후속 μž‘μ—… 적응을 μœ„ν•œ 효과적인 ν›„ν•™μŠ΅ νŒ¨λŸ¬λ‹€μž„μΈ RLVR의 높은 GPU λ©”λͺ¨λ¦¬ 및 ν•™μŠ΅ λΉ„μš© 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄, λ³Έ μ—°κ΅¬λŠ” LoRA와 같은 νŒŒλΌλ―Έν„° 효율적 λ―Έμ„Έ μ‘°μ •(PEFT)의 μ„±λŠ₯ μ œμ•½μ„ κ·Ήλ³΅ν•˜κ³  전체 λ―Έμ„Έ μ‘°μ •(FFT)에 κ·Όμ ‘ν•˜λŠ” μ„±λŠ₯을 λ‹¬μ„±ν•˜λŠ” Hybrid-LoRAλΌλŠ” μƒˆλ‘œμš΄ ν•˜μ΄λΈŒλ¦¬λ“œ ν›„ν•™μŠ΅ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. Hybrid-LoRAλŠ” μ €λž­ν¬ 적응에 덜 μ ν•©ν•œ μ†Œμˆ˜μ˜ λͺ¨λ“ˆμ—λŠ” 전체 λ―Έμ„Έ 쑰정을 μ μš©ν•˜κ³ , λ‚˜λ¨Έμ§€ λͺ¨λ“ˆμ€ LoRA둜 μ μ‘μ‹œμΌœ νš¨μœ¨μ„±μ„ λ†’μž…λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ£Όμš” μ‹œμ‚¬μ  1: Hybrid-LoRAλŠ” μ†Œμˆ˜μ˜ λ―Όκ°ν•œ λͺ¨λ“ˆμ— λŒ€ν•œ 전체 λ―Έμ„Έ μ‘°μ •κ³Ό λ‹€μˆ˜μ˜ λͺ¨λ“ˆμ— λŒ€ν•œ LoRA 적응을 κ²°ν•©ν•˜μ—¬, μ œν•œλœ νŒŒλΌλ―Έν„° μ˜ˆμ‚° λ‚΄μ—μ„œλ„ 전체 λ―Έμ„Έ 쑰정에 거의 κ·Όμ ‘ν•˜λŠ” μ„±λŠ₯을 달성할 수 μžˆμŒμ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ£Όμš” μ‹œμ‚¬μ  2: μ œμ•ˆλœ Hybrid-LoRA ScoreλŠ” μ €λž­ν¬ 적응에 λŒ€ν•œ λͺ¨λ“ˆμ˜ 민감도λ₯Ό 효과적으둜 ν‰κ°€ν•˜μ—¬ 졜적의 ν•˜μ΄λΈŒλ¦¬λ“œ μ „λž΅μ„ κ²°μ •ν•˜λŠ” 데 κΈ°μ—¬ν•©λ‹ˆλ‹€.
β€’
ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제: μ œμ•ˆλœ 방법둠이 νŠΉμ • LLM μ•„ν‚€ν…μ²˜ 및 λ‹€μš΄μŠ€νŠΈλ¦Ό μž‘μ—…μ— μ΅œμ ν™”λ  수 있으며, λ‹€μ–‘ν•œ λͺ¨λΈ 및 νƒœμŠ€ν¬μ— λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯ 및 좔가적인 ν•˜μ΄λΈŒλ¦¬λ“œ λͺ¨λ“ˆ 선택 기쀀에 λŒ€ν•œ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘