Sign In

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

Created by
  • Haebom
Category
Empty

μ €μž

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao Sang

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” 닀단계 μΆ”λ‘  μ‹œ 검색 보강 μ—μ΄μ „νŠΈμ˜ μ‹ λ’°μ„± 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, 검색 ν’ˆμ§ˆμ„ λͺ…μ‹œμ μΈ 평가 ν–‰λ™μœΌλ‘œ μ „ν™˜ν•˜κ³  검색과 평가λ₯Ό μ—°λ™ν•˜λŠ” \textsc{EvalAct} 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ PCAR μ΅œμ ν™” 기법은 λͺ…μ‹œμ μΈ 평가 점수λ₯Ό ν™œμš©ν•˜μ—¬ ν•™μŠ΅ μ‹ ν˜Έλ₯Ό μ„ΈλΆ„ν™”ν•¨μœΌλ‘œμ¨, 신뒰도 높은 κ΅¬κ°„μ—λŠ” 큰 κ°€μ€‘μΉ˜λ₯Ό λΆ€μ—¬ν•˜κ³  λΆˆν™•μ‹€ν•œ κ΅¬κ°„μ—λŠ” 보수적으둜 μ ‘κ·Όν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, \textsc{EvalAct}λŠ” 특히 닀단계 μ§ˆμ˜μ‘λ‹΅ νƒœμŠ€ν¬μ—μ„œ μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상을 보이며 λ‹€μ–‘ν•œ QA λ²€μΉ˜λ§ˆν¬μ—μ„œ 졜고 μˆ˜μ€€μ˜ 정확도λ₯Ό λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
검색 증강 μ—μ΄μ „νŠΈμ˜ 쀑간 단계 μΆ”λ‘  과정을 효과적으둜 μ΅œμ ν™”ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ νŒ¨λŸ¬λ‹€μž„μ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
λͺ…μ‹œμ μΈ 평가 λ©”μ»€λ‹ˆμ¦˜μ„ λ„μž…ν•˜μ—¬ μ—μ΄μ „νŠΈμ˜ μ˜μ‚¬ κ²°μ • 과정에 λŒ€ν•œ 더 ν’λΆ€ν•˜κ³  μ‹œκΈ°μ μ ˆν•œ ν•™μŠ΅ μ‹ ν˜Έλ₯Ό μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ³΅μž‘ν•œ μ§ˆμ˜μ‘λ‹΅ μ‹œλ‚˜λ¦¬μ˜€μ—μ„œ μ—μ΄μ „νŠΈμ˜ 견고성과 신뒰성을 ν–₯μƒμ‹œν‚€λŠ” 데 κΈ°μ—¬ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ μΌλ°˜ν™” κ°€λŠ₯μ„±κ³Ό λ‹€λ₯Έ μœ ν˜•μ˜ μ—μ΄μ „νŠΈ λ˜λŠ” νƒœμŠ€ν¬μ—μ˜ 적용 κ°€λŠ₯성은 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘