Sign In

Causally Robust Reward Learning from Reason-Augmented Preference Feedback

Created by
  • Haebom
Category
Empty

μ €μž

Minjune Hwang, Yigit Korkmaz, Daniel Seita, Erdem B{\i}y{\i}k

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ‚¬μš©μžμ˜ μ„ ν˜Έλ„λ₯Ό ν•™μŠ΅ν•˜μ—¬ μ—μ΄μ „νŠΈ 행동을 ν˜•μ„±ν•˜λŠ” κΈ°μ‘΄ λ°©μ‹μ˜ λ¬Έμ œμ μ„ μ§€μ ν•˜λ©°, 특히 인과 관계 ν˜Όλ™μ— μ·¨μ•½ν•œ ν¬μ†Œν•œ 이진 ν”Όλ“œλ°± 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ μžμ—°μ–΄ μ„€λͺ…을 ν™œμš©ν•˜λŠ” ReCouPLe ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•˜λ©°, 이λ₯Ό 톡해 ν•™μŠ΅λœ 보상 λͺ¨λΈμ΄ λͺ…μ‹œλœ μ΄μœ μ— κΈ°λ°˜ν•˜μ—¬ μ„ ν˜Έλ„λ₯Ό νŒŒμ•…ν•˜κ³ , κ°€μ§œ νŠΉμ§•μ— 얽맀이지 μ•Šκ³  μ‚¬μš©μž μ˜λ„λ₯Ό 더 잘 λ°˜μ˜ν•˜λ„λ‘ ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μžμ—°μ–΄ μ„€λͺ…을 톡해 인과 관계 μ‹ ν˜Έλ₯Ό μ œκ³΅ν•¨μœΌλ‘œμ¨ κΈ°μ‘΄ μ„ ν˜Έλ„ ν•™μŠ΅μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•©λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ μž‘μ—…μ— 걸쳐 λ™μΌν•œ μ„€λͺ…이 μ‚¬μš©λ  λ•Œ 인과 λ°©ν–₯을 μž¬μ‚¬μš©ν•˜κ³ , μƒˆλ‘œμš΄ μž‘μ—…μœΌλ‘œμ˜ 지식 이전이 κ°€λŠ₯ν•©λ‹ˆλ‹€.
β€’
뢄포 λ³€ν™” μ‹œ 보상 정확도 μ΅œλŒ€ 1.5λ°°, μƒˆλ‘œμš΄ μž‘μ—…μ—μ„œμ˜ μ •μ±… μ„±λŠ₯ μ΅œλŒ€ 2λ°° ν–₯상을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ„€λͺ…μ˜ ν’ˆμ§ˆκ³Ό 생성 방식에 λ”°λ₯Έ μ„±λŠ₯ λ³€ν™” κ°€λŠ₯μ„±, 그리고 μ„€λͺ…이 λ³΅μž‘ν•˜κ±°λ‚˜ λͺ¨ν˜Έν•œ 경우의 처리 λ°©μ•ˆμ— λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘