Sign In

ConsistRM: Improving Generative Reward Models via Consistency-Aware Self-Training

Created by
  • Haebom
Category
Empty

μ €μž

Yu Liang, Liangxin Liu, Longzheng Wang, Yan Wang, Yueyang Zhang, Long Xia, Zhiyuan Sun, Daiting Shi

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)을 인간 μ„ ν˜Έλ„μ— λ§žμΆ”κΈ° μœ„ν•œ 생성 보상 λͺ¨λΈ(GRM)은 높은 ν‘œν˜„λ ₯κ³Ό μœ μ—°μ„±μ„ μ œκ³΅ν•˜μ§€λ§Œ, λΉ„μ‹Ό 인간 주석 데이터와 λΆˆμ•ˆμ •ν•œ 자기 ν•™μŠ΅μ˜ ν•œκ³„λ₯Ό κ°€μ§‘λ‹ˆλ‹€. λ³Έ 논문은 μ΄λŸ¬ν•œ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 인간 주석 없이도 효과적이고 μ•ˆμ •μ μΈ GRM ν›ˆλ ¨μ„ κ°€λŠ₯ν•˜κ²Œ ν•˜λŠ” ConsistRM ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. ConsistRM은 μ‹œκ°„μ  일관성을 κ°–λŠ” μ‹ λ’°ν•  수 μžˆλŠ” μ˜μ‚¬ λ ˆμ΄λΈ”μ„ μƒμ„±ν•˜λŠ” '일관성 인식 λ‹΅λ³€ 보상'κ³Ό μ—¬λŸ¬ 비평 κ°„μ˜ 의미둠적 일관성을 ν‰κ°€ν•˜μ—¬ λ―Έμ„Έν•˜κ³  μ°¨λ³„ν™”λœ 보상을 ν• λ‹Ήν•˜λŠ” '일관성 인식 비평 보상'을 λ„μž…ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
인간 주석 없이도 GRM ν›ˆλ ¨μ˜ μ•ˆμ •μ„±κ³Ό μ„±λŠ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ” μƒˆλ‘œμš΄ 자기 ν•™μŠ΅ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ '일관성 인식' 보상 λ©”μ»€λ‹ˆμ¦˜μ€ 좜λ ₯ 일관성을 높이고 μž…λ ₯ μˆœμ„œλ‘œ μΈν•œ μœ„μΉ˜ 편ν–₯을 μ™„ν™”ν•˜λŠ” 데 νš¨κ³Όμ μž…λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 κΈ°μ‘΄ 자기 ν•™μŠ΅ κΈ°λ²•μ˜ λΆˆμ•ˆμ •μ„± 및 보상 ν•΄ν‚Ή 문제λ₯Ό ν•΄κ²°ν•  잠재λ ₯을 κ°€μ§‘λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜ 및 더 λ³΅μž‘ν•œ 인간 μ„ ν˜Έλ„ 데이터셋에 λŒ€ν•œ ConsistRM의 μΌλ°˜ν™” μ„±λŠ₯을 평가할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘