Sign In

PABU: Progress-Aware Belief Update for Efficient LLM Agents

Created by
  • Haebom
Category
Empty

μ €μž

Haitao Jiang, Lin Ge, Hengrui Cai, Rui Song

πŸ’‘ κ°œμš”

λ³Έ 논문은 LLM μ—μ΄μ „νŠΈκ°€ 전체 행동-κ΄€μ°° 기둝에 μ˜μ‘΄ν•˜μ—¬ λ°œμƒν•˜λŠ” λΆˆν•„μš”ν•œ 정보와 μ—°μ‚° λΉ„μš© 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ λ³Έ λ…Όλ¬Έμ—μ„œλŠ” μž‘μ—… μ§„ν–‰ 상황을 λͺ…μ‹œμ μœΌλ‘œ λͺ¨λΈλ§ν•˜κ³  κ³Όκ±° 기둝을 μ„ νƒμ μœΌλ‘œ μ €μž₯ν•˜λŠ” 'Progress-Aware Belief Update (PABU)' ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. PABUλŠ” 각 λ‹¨κ³„μ—μ„œ 이전 λΌμš΄λ“œ λŒ€λΉ„ μƒλŒ€μ μΈ μž‘μ—… 진행도λ₯Ό μ˜ˆμΈ‘ν•˜κ³ , μƒˆλ‘œμš΄ μƒν˜Έμž‘μš© 기둝을 μ €μž₯ν• μ§€ μ—¬λΆ€λ₯Ό κ²°μ •ν•˜μ—¬ νš¨μœ¨μ„±μ„ λ†’μž…λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM μ—μ΄μ „νŠΈμ˜ 정보 처리 νš¨μœ¨μ„±μ„ 크게 ν–₯μƒμ‹œμΌœ λΆˆν•„μš”ν•œ 행동과 높은 μΆ”λ‘  λΉ„μš©μ„ 쀄일 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
AgentGym λ²€μΉ˜λ§ˆν¬μ—μ„œ κΈ°μ‘΄ 졜고 μ„±λŠ₯ λͺ¨λΈ λŒ€λΉ„ 23.9% 높은 μž‘μ—… μ™„λ£Œμœ¨κ³Ό 26.9% κ°μ†Œλœ 평균 μƒν˜Έμž‘μš© 단계λ₯Ό λ‹¬μ„±ν•˜μ—¬ μ‹€μ§ˆμ μΈ μ„±λŠ₯ κ°œμ„ μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λͺ…μ‹œμ μΈ μž‘μ—… 진행도 예츑과 선택적 기둝 λ³΄μ‘΄μ΄λΌλŠ” 두 κ°€μ§€ 핡심 μš”μ†Œκ°€ PABU의 μ„±λŠ₯ ν–₯상에 ν•„μˆ˜μ μž„μ„ ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.
πŸ‘