Sign In

MAVRL: Learning Reward Functions from Multiple Feedback Types with Amortized Variational Inference

Created by
  • Haebom
Category
Empty

μ €μž

Raphael Baur, Yannick Metz, Maria Gkoulta, Mennatallah El-Assady, Giorgia Ramponi, Thomas Kleine Buening

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ‹€μ–‘ν•œ μœ ν˜•μ˜ ν”Όλ“œλ°±(μ‹œμ—°, 비ꡐ, 평가, 쀑단 λ“±)을 ν™œμš©ν•˜μ—¬ 보상 ν•¨μˆ˜λ₯Ό ν•™μŠ΅ν•˜λŠ” κΈ°μ‘΄ λ°©μ‹μ˜ ν•œκ³„λ₯Ό μ§€μ ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, μ €μžλ“€μ€ μ—¬λŸ¬ ν”Όλ“œλ°± μœ ν˜•μœΌλ‘œλΆ€ν„° 얻은 정보λ₯Ό 단일 잠재 보상 ν•¨μˆ˜μ— λŒ€ν•œ λ² μ΄μ§€μ•ˆ μΆ”λ‘  문제둜 μž¬κ΅¬μ„±ν•˜λŠ” μƒˆλ‘œμš΄ 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ 방법둠은 보상 인코더와 ν”Όλ“œλ°±λ³„ ν™•λ₯  디코더λ₯Ό ν•™μŠ΅ν•˜λŠ” ν™•μž₯ κ°€λŠ₯ν•œ ν™•λ₯ μ  근사 μΆ”λ‘ (amortized variational inference) μ ‘κ·Ό 방식을 μ‚¬μš©ν•˜λ©°, 단일 증거 ν•˜ν•œ(evidence lower bound) μ΅œμ ν™”λ₯Ό 톡해 ν›ˆλ ¨λ©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
이쒅 ν”Όλ“œλ°± 톡합: μ„œλ‘œ λ‹€λ₯Έ 질적 μ‹ ν˜Έλ₯Ό μ œκ³΅ν•˜λŠ” λ‹€μ–‘ν•œ μœ ν˜•μ˜ ν”Όλ“œλ°±μ„ λͺ…μ‹œμ μΈ κ°€λŠ₯μ„±(likelihood)을 톡해 κ³΅λ™μœΌλ‘œ ν•™μŠ΅ν•¨μœΌλ‘œμ¨, 보상 ν•™μŠ΅μ˜ μ •ν™•μ„±κ³Ό 견고성을 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μˆ˜λ™ κ°€μ€‘μΉ˜ μ‘°μ • λΆˆν•„μš”: ν”Όλ“œλ°±μ„ 곡톡 쀑간 ν‘œν˜„μœΌλ‘œ ν™˜μ›ν•˜κ±°λ‚˜ μˆ˜λ™μœΌλ‘œ 손싀을 μ‘°μ •ν•  ν•„μš” 없이, 단일 μ΅œμ ν™” λͺ©ν‘œλ₯Ό 톡해 효과적인 보상 ν•¨μˆ˜ ν•™μŠ΅μ΄ κ°€λŠ₯ν•©λ‹ˆλ‹€.
β€’
해석 κ°€λŠ₯ν•œ λΆˆν™•μ‹€μ„± μΆ”μ •: ν•™μŠ΅λœ 보상 λΆˆν™•μ‹€μ„±μ€ λͺ¨λΈμ˜ 신뒰도와 ν”Όλ“œλ°± μœ ν˜• κ°„μ˜ 일관성을 λΆ„μ„ν•˜λŠ” 데 μœ μš©ν•œ 해석 κ°€λŠ₯ν•œ μ‹ ν˜Έλ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
ν–₯ν›„ 과제: μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ 계산 λ³΅μž‘μ„± 및 μ‹€μ œ 적용 μ‹œ λ°œμƒν•  수 μžˆλŠ” λ‹€μ–‘ν•œ ν”Όλ“œλ°± μœ ν˜•μ˜ 편ν–₯성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘