Sign In

ReflectRM: Boosting Generative Reward Models via Self-Reflection within a Unified Judgment Framework

Created by
  • Haebom
Category
Empty

μ €μž

Kai Qin, Liangxin Liu, Yu Liang, Longzheng Wang, Yan Wang, Yueyang Zhang, Long Xia, Zhiyuan Sun, Houde Liu, Daiting Shi

πŸ’‘ κ°œμš”

이 μ—°κ΅¬λŠ” 인간 ν”Όλ“œλ°± 기반 κ°•ν™” ν•™μŠ΅(RLHF)μ—μ„œ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μ •λ ¬ ν’ˆμ§ˆμ„ κ²°μ •ν•˜λŠ” 생성 보상 λͺ¨λΈ(GRM)의 ν•œκ³„λ₯Ό ν•΄κ²°ν•©λ‹ˆλ‹€. κΈ°μ‘΄ GRM이 결과만 κ°λ…ν•˜λŠ” 것과 달리, μ œμ•ˆλœ ReflectRM은 뢄석 κ³Όμ •μ˜ ν’ˆμ§ˆκΉŒμ§€ ν‰κ°€ν•˜κΈ° μœ„ν•΄ '자기 μ„±μ°°' λ©”μ»€λ‹ˆμ¦˜μ„ λ„μž…ν•©λ‹ˆλ‹€. μ΄λŠ” 응닡 μ„ ν˜Έλ„μ™€ 뢄석 μ„ ν˜Έλ„λ₯Ό ν†΅ν•©μ μœΌλ‘œ λͺ¨λΈλ§ν•˜μ—¬ 더 μ •ν™•ν•˜κ³  μ•ˆμ •μ μΈ 보상 μ˜ˆμΈ‘μ„ κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
GRM ν•™μŠ΅μ— 뢄석 κ³Όμ •μ˜ ν’ˆμ§ˆμ„ ν†΅ν•©ν•¨μœΌλ‘œμ¨ LLM μ •λ ¬μ˜ μ •ν™•μ„±κ³Ό 신뒰성을 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
자기 μ„±μ°° λ©”μ»€λ‹ˆμ¦˜μ€ 응닡 μ„ ν˜Έλ„μ™€ 뢄석 μ„ ν˜Έλ„μ˜ μƒν˜Έ κ°•ν™” 효과λ₯Ό 톡해 λͺ¨λΈμ˜ μ„±λŠ₯을 λ”μš± μ¦μ§„μ‹œν‚΅λ‹ˆλ‹€.
β€’
ReflectRM은 κΈ°μ‘΄ GRM λŒ€λΉ„ μ‹¬κ°ν•œ λ¬Έμ œμ˜€λ˜ μœ„μΉ˜ 편ν–₯을 효과적으둜 μ™„ν™”ν•˜μ—¬ 보닀 μ•ˆμ •μ μΈ ν‰κ°€μžλ‘œμ„œμ˜ 역할을 μˆ˜ν–‰ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ ν•™μŠ΅ λ³΅μž‘μ„±κ³Ό 계산 λΉ„μš© 증가 κ°€λŠ₯성에 λŒ€ν•œ 좔가적인 탐ꡬ가 ν•„μš”ν•˜λ©°, λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜ 및 νƒœμŠ€ν¬μ— λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯ 검증이 μš”κ΅¬λ©λ‹ˆλ‹€.
πŸ‘