Sign In

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Created by
  • Haebom
Category
Empty

μ €μž

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” κ°•ν™”ν•™μŠ΅ 기반 검증 κ°€λŠ₯ν•œ 보상(RLVR) 방법둠이 논리적 μΆ”λ‘ μ—μ„œ 성곡을 κ±°λ‘μ—ˆμœΌλ‚˜, 도덕적 μΆ”λ‘ κ³Ό 같은 μ–Έμ–΄ λͺ¨λΈ μ •λ ¬(LLM Alignment) μž‘μ—…μ—λŠ” λ‹€λ₯Έ μ ‘κ·Ό 방식이 ν•„μš”ν•œμ§€μ— λŒ€ν•œ μ˜λ¬Έμ„ νƒκ΅¬ν•©λ‹ˆλ‹€. 도덕적 μΆ”λ‘ μ—μ„œ λ‹€μ–‘ν•œ 정닡이 ν—ˆμš©λ  수 μžˆλ‹€λŠ” κ°€μ • ν•˜μ—, 뢄포 일치 방식이 보상 κ·ΉλŒ€ν™” 방식보닀 μš°μˆ˜ν•  κ²ƒμ΄λΌλŠ” 가섀을 μ„Έμš°κ³  MoReBench λ°μ΄ν„°μ…‹μ—μ„œ κ²½ν—˜μ μœΌλ‘œ 비ꡐ λΆ„μ„ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
도덕적 μΆ”λ‘ κ³Ό 같은 μ •λ ¬ μž‘μ—…μ—μ„œ 뢄포 일치 방식이 보상 κ·ΉλŒ€ν™” 방식보닀 μœ μ˜λ―Έν•œ μš°μœ„λ₯Ό 보이지 μ•Šμ•˜μœΌλ©°, 였히렀 보상 κ·ΉλŒ€ν™” 방식이 λ™λ“±ν•˜κ±°λ‚˜ 더 효과적일 수 μžˆμŒμ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
도덕적 μΆ”λ‘ μ˜ 높은 보상 응닡 뢄포가 μˆ˜ν•™μ  좔둠보닀 더 μ§‘μ€‘λ˜μ–΄ μžˆμ–΄, λ‹€μ–‘ν•œ μ „λž΅μ„ νƒμƒ‰ν•˜κΈ°λ³΄λ‹€λŠ” νŠΉμ • 지점에 μ΅œμ ν™”ν•˜λŠ” 것이 효과적일 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” μ •λ ¬ μž‘μ—…μ΄ 본질적으둜 닀양성을 λ³΄μ‘΄ν•˜λŠ” μ•Œκ³ λ¦¬μ¦˜μ„ μš”κ΅¬ν•˜μ§€ μ•ŠμœΌλ©°, ν‘œμ€€μ μΈ RLVR 방법둠이 λͺ…μ‹œμ μΈ λ‹€μ–‘μ„± λ©”μ»€λ‹ˆμ¦˜ 없이도 도덕적 좔둠에 효과적으둜 적용될 수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” 더 λ³΅μž‘ν•˜κ³  λ―Έλ¬˜ν•œ 도덕적 λ”œλ ˆλ§ˆμ— λŒ€ν•œ RLVR λ°©λ²•λ‘ μ˜ μ„±λŠ₯을 ν‰κ°€ν•˜κ³ , λ‹€μ–‘ν•œ ν˜•νƒœμ˜ λ‹€μ–‘μ„± λ©”μ»€λ‹ˆμ¦˜μ΄ μ •λ ¬ μž‘μ—…μ— λ―ΈμΉ˜λŠ” 영ν–₯을 μΆ”κ°€μ μœΌλ‘œ 쑰사할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘