haebom
Sign In
Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning
Created by
Haebom
Category
Empty
μ μ
Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie
π‘ κ°μ
λ³Έ μ°κ΅¬λ κ°ννμ΅ κΈ°λ° κ²μ¦ κ°λ₯ν 보μ(RLVR) λ°©λ²λ‘ μ΄ λ Όλ¦¬μ μΆλ‘ μμ μ±κ³΅μ κ±°λμμΌλ, λλμ μΆλ‘ κ³Ό κ°μ μΈμ΄ λͺ¨λΈ μ λ ¬(LLM Alignment) μμ μλ λ€λ₯Έ μ κ·Ό λ°©μμ΄ νμνμ§μ λν μλ¬Έμ νꡬν©λλ€. λλμ μΆλ‘ μμ λ€μν μ λ΅μ΄ νμ©λ μ μλ€λ κ°μ νμ, λΆν¬ μΌμΉ λ°©μμ΄ λ³΄μ κ·Ήλν λ°©μλ³΄λ€ μ°μν κ²μ΄λΌλ κ°μ€μ μΈμ°κ³ MoReBench λ°μ΄ν°μ μμ κ²½νμ μΌλ‘ λΉκ΅ λΆμνμ΅λλ€.
π μμ¬μ λ° νκ³
β’
λλμ μΆλ‘ κ³Ό κ°μ μ λ ¬ μμ μμ λΆν¬ μΌμΉ λ°©μμ΄ λ³΄μ κ·Ήλν λ°©μλ³΄λ€ μ μλ―Έν μ°μλ₯Ό 보μ΄μ§ μμμΌλ©°, μ€νλ € 보μ κ·Ήλν λ°©μμ΄ λλ±νκ±°λ λ ν¨κ³Όμ μΌ μ μμμ λ°κ²¬νμ΅λλ€.
β’
λλμ μΆλ‘ μ λμ 보μ μλ΅ λΆν¬κ° μνμ μΆλ‘ λ³΄λ€ λ μ§μ€λμ΄ μμ΄, λ€μν μ λ΅μ νμν기보λ€λ νΉμ μ§μ μ μ΅μ ννλ κ²μ΄ ν¨κ³Όμ μΌ μ μμ΅λλ€.
β’
λ³Έ μ°κ΅¬λ μ λ ¬ μμ μ΄ λ³Έμ§μ μΌλ‘ λ€μμ±μ 보쑴νλ μκ³ λ¦¬μ¦μ μꡬνμ§ μμΌλ©°, νμ€μ μΈ RLVR λ°©λ²λ‘ μ΄ λͺ μμ μΈ λ€μμ± λ©μ»€λμ¦ μμ΄λ λλμ μΆλ‘ μ ν¨κ³Όμ μΌλ‘ μ μ©λ μ μμμ μμ¬ν©λλ€.
β’
ν₯ν μ°κ΅¬μμλ λ 볡μ‘νκ³ λ―Έλ¬ν λλμ λλ λ§μ λν RLVR λ°©λ²λ‘ μ μ±λ₯μ νκ°νκ³ , λ€μν ννμ λ€μμ± λ©μ»€λμ¦μ΄ μ λ ¬ μμ μ λ―ΈμΉλ μν₯μ μΆκ°μ μΌλ‘ μ‘°μ¬ν νμκ° μμ΅λλ€.
PDF 보기
Made with Slashpage