Sign In

Reconciling Contradictory Views on the Effectiveness of SFT in LLMs: An Interaction Perspective

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Junpeng Zhang, Lei Cheng, Guoxi Zhang, Hua Cai, Qing Xu, Quanshi Zhang

πŸ’‘ κ°œμš”

이 논문은 지도 ν•™μŠ΅ λ―Έμ„Έ μ‘°μ •(SFT)이 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)에 적용될 λ•Œ μΌκ΄€λ˜μ§€ μ•Šκ±°λ‚˜ ν•΄λ‘œμš΄ κ²°κ³Όλ₯Ό μ΄ˆλž˜ν•˜λŠ” μ΄μœ μ— λŒ€ν•œ 과학적 μ§ˆλ¬Έμ„ νƒκ΅¬ν•©λ‹ˆλ‹€. μƒν˜Έμž‘μš© 기반 μ„€λͺ…μ˜ μ΅œμ‹  연ꡬ에 λ”°λ₯΄λ©΄ 단어/토큰 κ°„μ˜ μƒν˜Έμž‘μš©μ€ LLM에 μΈμ½”λ”©λœ μΆ”λ‘  νŒ¨ν„΄μ„ μ •λŸ‰ν™”ν•˜λŠ” μΆ©μ‹€ν•œ μ§€ν‘œλ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€. 연ꡬ진은 SFT 쀑에 λ°œμƒν•˜λŠ” μƒν˜Έμž‘μš©μ˜ λ³€ν™”κ°€ LLM에 λŒ€ν•œ SFT의 μΌκ΄€λ˜μ§€ μ•Šμ€ 효과λ₯Ό 효과적으둜 μ„€λͺ…ν•  수 μžˆμŒμ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
SFTλŠ” 주둜 λ…Έμ΄μ¦ˆμ™€ 같은 μƒν˜Έμž‘μš©μ„ μ œκ±°ν•˜μ§€λ§Œ, μ‹ λ’°ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ μƒν˜Έμž‘μš©μ„ νšλ“ν•˜λŠ” κ²½μš°λŠ” λ“œλ­…λ‹ˆλ‹€.
β€’
μ΄λŸ¬ν•œ λ…Έμ΄μ¦ˆ 제거 λ‹¨κ³„λŠ” 맀우 짧으며, μ΄ν›„μ˜ 지속적인 λ―Έμ„Έ 쑰정은 κ³Όμ ν•©λœ μƒν˜Έμž‘μš©μ„ λ„μž…ν•˜λŠ” κ²½ν–₯이 μžˆμŠ΅λ‹ˆλ‹€.
β€’
SFT의 νš¨κ³Όμ— λŒ€ν•œ μƒν˜Έμž‘μš© κ΄€μ μ—μ„œμ˜ μƒˆλ‘œμš΄ 톡찰λ ₯을 μ œκ³΅ν•˜λ©°, LLM ν›ˆλ ¨μ„ μœ„ν•œ μ‹€μ§ˆμ μΈ 지침을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μ‘°κΈ° 쀑단(early stopping)에 λŒ€ν•œ μƒˆλ‘œμš΄ 관점을 μ œμ‹œν•˜μ—¬ LLM ν›ˆλ ¨μ˜ 졜적 μ‹œμ μ„ μ°ΎλŠ” 데 도움을 쀄 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘