Sign In

Automatically Finding Reward Model Biases

Created by
  • Haebom
Category
Empty

μ €μž

Atticus Wang, Ivan Arcuschin, Arthur Conmy

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM) ν›„μ²˜λ¦¬ κ³Όμ •μ—μ„œ μ€‘μš”ν•œ 역할을 ν•˜λŠ” 보상 λͺ¨λΈ(Reward Model, RM)의 μˆ¨κ²¨μ§„ 편ν–₯을 μžλ™μœΌλ‘œ νƒμ§€ν•˜λŠ” μƒˆλ‘œμš΄ 연ꡬ 문제λ₯Ό μ œκΈ°ν•©λ‹ˆλ‹€. μ œμ•ˆλœ 방법둠은 LLM을 ν™œμš©ν•˜μ—¬ 반볡적으둜 후보 편ν–₯을 μƒμ„±ν•˜κ³  κ°œμ„ ν•˜λŠ” λ°©μ‹μœΌλ‘œ, 기쑴에 μ•Œλ €μ§„ 편ν–₯뿐만 μ•„λ‹ˆλΌ 응닡 길이, ν˜•μ‹, ν™˜κ°, 아첨 λ“±κ³Ό 같은 λ°”λžŒμ§ν•˜μ§€ μ•Šμ€ νŠΉμ„±μ„ 보상 λͺ¨λΈμ΄ 잘λͺ» λ³΄μƒν•˜λŠ” 경우λ₯Ό νƒμ§€ν•©λ‹ˆλ‹€. μ‹€ν—˜μ„ 톡해 Skywork-V2-8B와 같은 μ£Όμš” 보상 λͺ¨λΈμ—μ„œ 쀑볡 κ³΅λ°±μ΄λ‚˜ ν™˜κ° μ½˜ν…μΈ λ₯Ό κ°€μ§„ 응닡을 μ„ ν˜Έν•˜λŠ” 편ν–₯을 λ°œκ²¬ν–ˆμœΌλ©°, μ΄λŠ” μžλ™ν™”λœ 해석 κ°€λŠ₯μ„± 연ꡬ에 κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
보상 λͺ¨λΈμ˜ 잠재적인 편ν–₯을 μ²΄κ³„μ μœΌλ‘œ 탐지할 수 μžˆλŠ” μžλ™ν™”λœ 방법둠을 μ œμ‹œν•˜μ—¬ LLM의 μ‹ λ’°μ„±κ³Ό μ•ˆμ „μ„±μ„ ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
기쑴에 μ•Œλ €μ§„ 편ν–₯ 외에도 μƒˆλ‘­κ³  λ―Έλ¬˜ν•œ 편ν–₯을 λ°œκ²¬ν•¨μœΌλ‘œμ¨ 보상 λͺ¨λΈ κ°œμ„ μ„ μœ„ν•œ μ€‘μš”ν•œ λ‹¨μ„œλ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ μ„±λŠ₯은 ν•©μ„±μ μœΌλ‘œ μ£Όμž…λœ 편ν–₯을 ν†΅ν•œ 검증을 톡해 μž…μ¦λ˜μ—ˆμ§€λ§Œ, μ‹€μ œ λ³΅μž‘ν•œ 편ν–₯을 λͺ¨λ‘ νƒμ§€ν•˜κΈ° μœ„ν•œ 좔가적인 κ°œμ„ μ΄ ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘