haebom
Sign In
Self-ReSET: Learning to Self-Recover from Unsafe Reasoning Trajectories
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Dongcheng Zhang, Yi Zhang, Yuxin Chen, An Zhang, Xiang Wang, Chaochao Lu
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λν μΆλ‘ λͺ¨λΈ(LRM)μ΄ μ λμ 곡격μΌλ‘ μΈν μμ νμ§ μμ μΆλ‘ κΆ€μ μμ μ€μ€λ‘ 볡ꡬνλ λ₯λ ₯μ΄ λΆμ‘±νλ€λ λ¬Έμ μ μ£Όλͺ©ν©λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄, λ Όλ¬Έμμλ LRMμ΄ μμ μ μμ μ€λ₯ κΆ€μ μ μ¬μ¬μ©νμ¬ κ°ννμ΅μ μννλ μμ κ°ννμ΅ νλ μμν¬μΈ Self-ReSETμ μ μν©λλ€. μ€ν κ²°κ³Ό, Self-ReSETμ νΉν λΆν¬ μΈ(OOD) νμ₯ ν둬ννΈμ λν κ²¬κ³ μ±μ ν¬κ² ν₯μμν€λ©΄μ μΌλ°μ μΈ μ μ©μ±μ μ μ§νκ³ ν¨μ¨μ μΈ λ°μ΄ν° νμ©μ 보μ¬μ€λλ€.
π μμ¬μ λ° νκ³
β’
LRMμ΄ μΈλΆ λ°μ΄ν°μ μμ‘΄νμ§ μκ³ μ체μ μΈ μμ μ€λ₯ κΆ€μ μ νμ΅ λ°μ΄ν°λ‘ νμ©νμ¬ λ³΅κ΅¬ λ₯λ ₯μ λ΄μ¬νν μ μμμ 보μ¬μ€λλ€.
β’
μ λμ 곡격, νΉν μ΄μ μλ λ³΄μ§ λͺ»ν μλ‘μ΄ μ νμ 곡격μ λν LRMμ κ²¬κ³ μ±μ ν¨κ³Όμ μΌλ‘ ν₯μμν¬ μ μμ΅λλ€.
β’
μ μλ λ°©λ²μ LRMμ μΌλ°μ μΈ μ±λ₯μ΄λ μ μ©μ±μ μ ν΄νμ§ μμΌλ©΄μ μμ μ± μΈ‘λ©΄μ κ°νν©λλ€.
β’
μμ§ νΉμ μ νμ 곡격μ΄λ 볡μ‘ν λ€λ¨κ³ μΆλ‘ μ€λ₯μ λν 볡ꡬ λ₯λ ₯μ μΆκ°μ μΈ μ°κ΅¬κ° νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage