Sign In

Self-ReSET: Learning to Self-Recover from Unsafe Reasoning Trajectories

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Dongcheng Zhang, Yi Zhang, Yuxin Chen, An Zhang, Xiang Wang, Chaochao Lu

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€ν˜• μΆ”λ‘  λͺ¨λΈ(LRM)이 μ λŒ€μ  곡격으둜 μΈν•œ μ•ˆμ „ν•˜μ§€ μ•Šμ€ μΆ”λ‘  κΆ€μ μ—μ„œ 슀슀둜 λ³΅κ΅¬ν•˜λŠ” λŠ₯λ ₯이 λΆ€μ‘±ν•˜λ‹€λŠ” λ¬Έμ œμ— μ£Όλͺ©ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, λ…Όλ¬Έμ—μ„œλŠ” LRM이 μžμ‹ μ˜ μ•ˆμ „ 였λ₯˜ ꢀ적을 μž¬μ‚¬μš©ν•˜μ—¬ κ°•ν™”ν•™μŠ΅μ„ μˆ˜ν–‰ν•˜λŠ” 순수 κ°•ν™”ν•™μŠ΅ ν”„λ ˆμž„μ›Œν¬μΈ Self-ReSET을 μ œμ•ˆν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, Self-ReSET은 특히 뢄포 μ™Έ(OOD) νƒˆμ˜₯ ν”„λ‘¬ν”„νŠΈμ— λŒ€ν•œ 견고성을 크게 ν–₯μƒμ‹œν‚€λ©΄μ„œ 일반적인 μœ μš©μ„±μ„ μœ μ§€ν•˜κ³  효율적인 데이터 ν™œμš©μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LRM이 μ™ΈλΆ€ 데이터에 μ˜μ‘΄ν•˜μ§€ μ•Šκ³  자체적인 μ•ˆμ „ 였λ₯˜ ꢀ적을 ν•™μŠ΅ λ°μ΄ν„°λ‘œ ν™œμš©ν•˜μ—¬ 볡ꡬ λŠ₯λ ₯을 λ‚΄μž¬ν™”ν•  수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ λŒ€μ  곡격, 특히 μ΄μ „μ—λŠ” 보지 λͺ»ν•œ μƒˆλ‘œμš΄ μœ ν˜•μ˜ 곡격에 λŒ€ν•œ LRM의 견고성을 효과적으둜 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법은 LRM의 일반적인 μ„±λŠ₯μ΄λ‚˜ μœ μš©μ„±μ„ μ €ν•΄ν•˜μ§€ μ•ŠμœΌλ©΄μ„œ μ•ˆμ „μ„± 츑면을 κ°•ν™”ν•©λ‹ˆλ‹€.
β€’
아직 νŠΉμ • μœ ν˜•μ˜ κ³΅κ²©μ΄λ‚˜ λ³΅μž‘ν•œ 닀단계 μΆ”λ‘  였λ₯˜μ— λŒ€ν•œ 볡ꡬ λŠ₯λ ₯은 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘