Sign In

Optimus: A Robust Defense Framework for Mitigating Toxicity while Fine-Tuning Conversational AI

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Aravind Cheruvu, Shravya Kanchi, Sifat Muhammad Abdullah, Nicholas Ka-Shing Kong, Daphne Yao, Murtuza Jadliwala, Bimal Viswanath

πŸ’‘ κ°œμš”

μ‹ λ’°ν•  수 μ—†λŠ” λ°μ΄ν„°μ…‹μœΌλ‘œ LLM을 λ―Έμ„Έ μ‘°μ •ν•  λ•Œ λ°œμƒν•˜λŠ” μœ ν•΄ν•œ 행동 μ£Όμž… μœ„ν—˜μ„ ν•΄κ²°ν•˜κΈ° μœ„ν•΄, λ³Έ 논문은 OptimusλΌλŠ” μƒˆλ‘œμš΄ λ°©μ–΄ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. OptimusλŠ” λΆ€μ •ν™•ν•˜κ±°λ‚˜ 편ν–₯된 독성 λΆ„λ₯˜κΈ°μ—λ„ κ°•κ±΄ν•˜κ²Œ μž‘λ™ν•˜λ©°, κΈ°μ‘΄ LLM의 μ•ˆμ „ 정렬을 μž¬ν™œμš©ν•˜λŠ” ν›ˆλ ¨ μ—†λŠ” 독성 λΆ„λ₯˜ 방식과 ν•©μ„± "치유 데이터" 및 DPOλ₯Ό κ²°ν•©ν•œ 이쀑 μ •λ ¬ μ „λž΅μ„ μ‚¬μš©ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ 방법둠을 톡해 OptimusλŠ” μ‹¬κ°ν•˜κ²Œ 편ν–₯된 λΆ„λ₯˜κΈ°μ—μ„œλ„ μœ ν•΄μ„±μ„ 효과적으둜 μ™„ν™”ν•˜κ³ , μ΅œμ²¨λ‹¨ λ°©μ–΄ 기법보닀 μš°μˆ˜ν•œ μ„±λŠ₯을 보이며 μ μ‘ν˜• 곡격에도 강건함을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λΆˆμ™„μ „ν•˜κ±°λ‚˜ 편ν–₯된 독성 탐지에도 λΆˆκ΅¬ν•˜κ³  LLM λ―Έμ„Έ μ‘°μ • μ‹œ λ°œμƒν•˜λŠ” μœ ν•΄μ„±μ„ κ°•κ±΄ν•˜κ²Œ μ™„ν™”ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ λ°©μ–΄ ν”„λ ˆμž„μ›Œν¬ Optimusλ₯Ό μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
κΈ°μ‘΄ LLM의 μ•ˆμ „ 정렬을 μž¬ν™œμš©ν•˜λŠ” ν›ˆλ ¨ μ—†λŠ” 독성 λΆ„λ₯˜ 방식과 ν•©μ„± 데이터 및 DPOλ₯Ό κ²°ν•©ν•œ 효율적인 이쀑 μ •λ ¬ μ „λž΅μ„ 톡해 λŒ€ν™”ν˜• AI의 μœ μš©μ„±μ„ λ³΄μ‘΄ν•˜λ©΄μ„œ μ•ˆμ „μ„±μ„ λ†’μ˜€μŠ΅λ‹ˆλ‹€.
β€’
μ΅œμ²¨λ‹¨ 기법 λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯κ³Ό μ μ‘ν˜• 곡격에 λŒ€ν•œ 높은 볡원λ ₯을 μž…μ¦ν•˜μ—¬, μ‹€μ œ ν™˜κ²½μ—μ„œμ˜ LLM μ•ˆμ „μ„± 강화에 κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ‚¬μš©λœ ν•©μ„± λ°μ΄ν„°μ˜ ν’ˆμ§ˆκ³Ό 닀양성이 λ°©μ–΄ μ„±λŠ₯에 λ―ΈμΉ˜λŠ” 영ν–₯, 그리고 λͺ¨λΈμ˜ μ „λ°˜μ μΈ μ„±λŠ₯ μ €ν•˜ κ°€λŠ₯성에 λŒ€ν•œ 좔가적인 뢄석이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘