Sign In

Team-Based Self-Play With Dual Adaptive Weighting for Fine-Tuning LLMs

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Wu Li, Yigeng Zhou, Zesheng Shi, Yequan Wang, Min Zhang, Jing Li

πŸ’‘ κ°œμš”

λ³Έ 논문은 κΈ°μ‘΄ 자기 지도 ν•™μŠ΅ λ°©μ‹μ˜ ν•©μ„± 데이터 ν’ˆμ§ˆ 민감성 및 ν•™μŠ΅ λΆˆμ•ˆμ •μ„± 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, ν˜„μž¬ μ •μ±… λͺ¨λΈμ΄ κ³Όκ±° μ²΄ν¬ν¬μΈνŠΈμ™€ ν˜‘λ ₯ 및 κ²½μŸν•˜λŠ” νŒ€ 기반 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. λ”λΆˆμ–΄, λͺ©ν‘œ μ‘λ‹΅μ˜ μ€‘μš”λ„λ₯Ό μ‘°μ ˆν•˜λŠ” 응닡 μž¬κ°€μ€‘μΉ˜μ™€ 각 νŒ€μ› 기여도λ₯Ό λ™μ μœΌλ‘œ μ‘°μ ˆν•˜λŠ” ν”Œλ ˆμ΄μ–΄ κ°€μ€‘μΉ˜ μ „λž΅μ΄λΌλŠ” 두 κ°€μ§€ μ μ‘ν˜• κ°€μ€‘μΉ˜ λ©”μ»€λ‹ˆμ¦˜μ„ 톡해 ν•™μŠ΅μ„ κ°•ν™”ν•©λ‹ˆλ‹€. 결과적으둜, 좔가적인 인간 지도 없이도 LLM의 정렬을 효과적으둜 κ°œμ„ ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
좔가적인 인간 지도 없이도 LLM의 정렬을 μ•ˆμ •μ μ΄κ³  효율적으둜 κ°œμ„ ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ 자기 지도 ν•™μŠ΅ 방법둠을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
κ³Όκ±° λͺ¨λΈ 체크포인트λ₯Ό ν™œμš©ν•˜λŠ” νŒ€ 기반 μ…€ν”„ ν”Œλ ˆμ΄μ™€ μ μ‘ν˜• κ°€μ€‘μΉ˜ λ©”μ»€λ‹ˆμ¦˜μ„ 톡해 ν•™μŠ΅ μ•ˆμ •μ„±κ³Ό μ„±λŠ₯ ν–₯상을 λ™μ‹œμ— λ‹¬μ„±ν•©λ‹ˆλ‹€.
β€’
ν˜„μž¬ μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ μ„±λŠ₯은 λ‹€μ–‘ν•œ LLM λ²€μΉ˜λ§ˆν¬μ—μ„œ κΈ°μ‘΄ 방법둠 λŒ€λΉ„ μš°μˆ˜ν•œ κ²°κ³Όλ₯Ό λ³΄μ˜€μœΌλ©°, μ½”λ“œ 곡개λ₯Ό 톡해 μž¬ν˜„ 및 ν™œμš©μ΄ κ°€λŠ₯ν•©λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” TPAWκ°€ λ‹€μ–‘ν•œ μ–Έμ–΄ 및 μž‘μ—…μ— 걸쳐 μ–Όλ§ˆλ‚˜ μΌλ°˜ν™”λ  수 μžˆλŠ”μ§€, 그리고 λ”μš± λ³΅μž‘ν•œ νŒ€ κ΅¬μ‘°λ‚˜ 경쟁 λ©”μ»€λ‹ˆμ¦˜μ„ λ„μž…ν–ˆμ„ λ•Œ μ„±λŠ₯ λ³€ν™”λ₯Ό νƒμƒ‰ν•˜λŠ” 것이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘