Sign In

MemReward: Graph-Based Experience Memory for LLM Reward Prediction with Limited Labels

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Tianyang Luo, Tao Feng, Zhigang Hua, Yan Xie, Shuang Yang, Ge Liu, Jiaxuan You

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ ˆμ΄λΈ”μ΄ λΆ€μ‘±ν•œ μƒν™©μ—μ„œ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 κ°•ν™”ν•™μŠ΅ 기반 λ―Έμ„Έ 쑰정을 μœ„ν•œ 'MemReward'λΌλŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. MemRewardλŠ” 둀아웃(사고 κ³Όμ • 및 μ΅œμ’… λ‹΅λ³€)을 λ…Έλ“œλ‘œ, μœ μ‚¬λ„ 및 ꡬ쑰적 관계λ₯Ό μ—£μ§€λ‘œ ν•˜λŠ” κ·Έλž˜ν”„μ— μ €μž₯ν•˜κ³ , κ·Έλž˜ν”„ 신경망(GNN)을 μ‚¬μš©ν•˜μ—¬ λ ˆμ΄λΈ”μ΄ μ—†λŠ” 둀아웃에 λŒ€ν•œ 보상을 μ˜ˆμΈ‘ν•˜μ—¬ λ ˆμ΄λΈ” 정보λ₯Ό μ „νŒŒν•©λ‹ˆλ‹€. 이 μ ‘κ·Ό 방식은 μ œν•œλœ λ ˆμ΄λΈ” λ°μ΄ν„°λ‘œλ„ 높은 μ„±λŠ₯을 λ‹¬μ„±ν•˜λ©°, 특히 μˆ˜ν•™, 질문 λ‹΅λ³€, μ½”λ“œ 생성과 같은 λ³΅μž‘ν•œ μž‘μ—…μ—μ„œ νš¨κ³Όμ μž…λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
데이터 효율적인 RL λ―Έμ„Έ μ‘°μ •: λ ˆμ΄λΈ”μ΄ λΆ€μ‘±ν•œ ν™˜κ²½μ—μ„œλ„ LLM의 κ°•ν™”ν•™μŠ΅ 기반 λ―Έμ„Έ μ‘°μ • μ„±λŠ₯을 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŒμ„ λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.
β€’
μΆ”λ‘  κ³Όμ •μ˜ ν™œμš©: λ‘€μ•„μ›ƒμ˜ 전체 μΆ”λ‘  κ³Όμ •(μƒκ°ν•˜λŠ” κ³Όμ •)을 κ·Έλž˜ν”„μ˜ λ…Έλ“œλ‘œ ν™œμš©ν•˜μ—¬ 보상 예츑의 정확도λ₯Ό λ†’μ΄λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ²”μš©μ μΈ 적용 κ°€λŠ₯μ„±: μˆ˜ν•™, 질문 λ‹΅λ³€, μ½”λ“œ 생성 λ“± λ‹€μ–‘ν•œ λ„λ©”μΈμ—μ„œ μ‹€ν—˜μ„ 톡해 MemReward의 λ²”μš©μ μΈ 적용 κ°€λŠ₯성을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
GNN의 예츑 였λ₯˜: GNN이 μ˜ˆμΈ‘ν•œ λ³΄μƒμ—λŠ” μ—¬μ „νžˆ 였λ₯˜κ°€ 포함될 수 있으며, μ΄λŠ” μ „λ°˜μ μΈ λ―Έμ„Έ μ‘°μ • μ„±λŠ₯에 영ν–₯을 λ―ΈμΉ  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
κ·Έλž˜ν”„ ꡬ좕 및 GNN ν•™μŠ΅μ˜ λ³΅μž‘μ„±: λŒ€κ·œλͺ¨ 둀아웃 데이터λ₯Ό κ·Έλž˜ν”„λ‘œ κ΅¬μΆ•ν•˜κ³  GNN을 효과적으둜 ν•™μŠ΅μ‹œν‚€λŠ” 과정에 좔가적인 계산 μžμ›κ³Ό μ΅œμ ν™”κ°€ ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μƒˆλ‘œμš΄ λ„λ©”μΈμ—μ„œμ˜ μ„±λŠ₯: 아직 κ²€μ¦λ˜μ§€ μ•Šμ€ μƒˆλ‘œμš΄ λ„λ©”μΈμ΄λ‚˜ μž‘μ—… μœ ν˜•μ— λŒ€ν•΄μ„œλŠ” μ„±λŠ₯을 μΆ”κ°€μ μœΌλ‘œ 검증해야 ν•  ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘