Sign In

Maximizing Rollout Informativeness under a Fixed Budget: A Submodular View of Tree Search for Tool-Use Agentic Reinforcement Learning

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yuelin Hu, Zhenbo Yu, Zhengxue Cheng, Wei Liu, Li Song

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ³ μ •λœ μ˜ˆμ‚° μ œμ•½ ν•˜μ—μ„œ 도ꡬ μ‚¬μš© κ°•ν™”ν•™μŠ΅ μ—μ΄μ „νŠΈμ˜ 둀아웃 정보성을 κ·ΉλŒ€ν™”ν•˜λŠ” 문제λ₯Ό λ‹€λ£Ήλ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ 쀑간 μƒνƒœ 선택을 단쑰적 μ„œλΈŒλͺ¨λ“ˆλŸ¬ μ΅œλŒ€ν™” 문제둜 μž¬κ΅¬μ„±ν•˜μ—¬, ν•œ 걸음 νƒμš•μ  μ„ νƒμžλ‘œ 1-1/e 근사 보μž₯을 μ–»μŠ΅λ‹ˆλ‹€. μ œμ•ˆλœ InfoTree ν”„λ ˆμž„μ›Œν¬λŠ” λΆˆν™•μ‹€μ„± 인식 μƒν•œ 신뒰도 μƒν•œ(UUCB)κ³Ό μ μ‘ν˜• μ˜ˆμ‚° ν• λ‹ΉκΈ°(ABA), 비동기적 μΆ”μΈ‘ ν™•μž₯ 기법을 κ²°ν•©ν•˜μ—¬ λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ κΈ°μ‘΄ 방법둠 λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
쀑간 μƒνƒœ 선택을 μ„œλΈŒλͺ¨λ“ˆλŸ¬ μ΅œμ ν™” 문제둜 ν”„λ ˆμž„ν™”ν•¨μœΌλ‘œμ¨, 기쑴의 κ²½ν—˜μ  κΈ°λ²•μ΄μ—ˆλ˜ 토큰 레벨 μ—”νŠΈλ‘œν”Ό λ³΄λ„ˆμŠ€λ₯Ό λΆ„μ„μ μœΌλ‘œ λ„μΆœν•  수 있게 λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ InfoTree ν”„λ ˆμž„μ›Œν¬λŠ” μ μ‘ν˜• μ˜ˆμ‚° ν• λ‹Ήκ³Ό 비동기적 μΆ”μΈ‘ ν™•μž₯을 톡해 둀아웃 정보성을 효과적으둜 ν–₯μƒμ‹œν‚€κ³ , λ‹€μ–‘ν•œ λ³΅μž‘ν•œ μΆ”λ‘  및 도ꡬ μ‚¬μš© μž‘μ—…μ—μ„œ κΈ°μ‘΄ μ΅œμ‹  기법듀보닀 λ›°μ–΄λ‚œ μ„±λŠ₯을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
UUCB의 μ„±λŠ₯이 넓은 ν•˜μ΄νΌνŒŒλΌλ―Έν„° 곡간에 걸쳐 견고함을 λ³΄μΈλ‹€λŠ” 점은 μ‹€μ œ 적용 κ°€λŠ₯성을 λ†’μž…λ‹ˆλ‹€.
β€’
λ…Όλ¬Έμ—μ„œ 닀룬 μ˜ˆμ‚° μ œμ•½μ΄ μ‹€μ œ μ—μ΄μ „νŠΈ ν•™μŠ΅μ—μ„œ λ°œμƒν•˜λŠ” λͺ¨λ“  μžμ› μ œμ•½μ„ ν¬κ΄„ν•˜μ§€λŠ” μ•Šμ„ 수 있으며, λ³΅μž‘ν•œ 도ꡬ κ°„μ˜ μƒν˜Έμž‘μš© 및 μž₯기적인 μ˜μ‘΄μ„±μ„ κ³ λ €ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘