Sign In

Latent Action Reparameterization for Efficient Agent Inference

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Wenhao Huang, Qingwen Zeng, Qiyue Chen, Zijie Guo, Yu Sun, Cheng Yang, Siru Ouyang, Jiri Gesi, Fang Wu, Jiayi Zhang, Huaming Chen, Bang Liu, Xiangru Tang, Chenglin Wu

πŸ’‘ κ°œμš”

λ³Έ 논문은 LLM μ—μ΄μ „νŠΈκ°€ μ‚¬μš©ν•˜λŠ” μ €μˆ˜μ€€ ν…μŠ€νŠΈ μ•‘μ…˜ μ‹œν€€μŠ€λ‘œ μΈν•œ 높은 μΆ”λ‘  λΉ„μš© 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ λ©€ν‹°μŠ€ν… 의미둠적 행동에 ν•΄λ‹Ήν•˜λŠ” μ••μΆ•λœ 잠재 μ•‘μ…˜ 곡간을 ν•™μŠ΅ν•˜λŠ” Latent Action Reparameterization (LAR) ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. LARλŠ” μ—μ΄μ „νŠΈμ˜ 행동을 잠재 λ‹¨μœ„λ‘œ μž¬λ§€κ°œλ³€μˆ˜ν™”ν•˜μ—¬ μ˜μ‚¬κ²°μ •μ˜ 유효 μ‹œκ°„ 지평을 λ‹¨μΆ•μ‹œν‚€λ©΄μ„œλ„ μ›λž˜ μ•‘μ…˜ κ³΅κ°„μ˜ ν‘œν˜„λ ₯을 μœ μ§€ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM μ—μ΄μ „νŠΈμ˜ μ•‘μ…˜ 곡간 ν‘œν˜„ ν•™μŠ΅μ΄ μΆ”λ‘  νš¨μœ¨μ„± ν–₯μƒμ˜ 핡심 μš”μ†Œμž„μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
LARλŠ” μˆ˜μž‘μ—… λ§€ν¬λ‘œλ‚˜ 계측적 μ»¨νŠΈλ‘€λŸ¬μ™€ 달리 μ—μ΄μ „νŠΈ κΆ€μ λ‘œλΆ€ν„° 잠재 μ•‘μ…˜μ„ ν•™μŠ΅ν•˜κ³  λͺ¨λΈμ— 직접 ν†΅ν•©ν•˜μ—¬ κ³„νš 및 싀행을 좔상적인 μ•‘μ…˜ ν‘œν˜„μœΌλ‘œ μˆ˜ν–‰ν•  수 있게 ν•©λ‹ˆλ‹€.
β€’
LARλŠ” λ‹€μ–‘ν•œ LLM 기반 μ—μ΄μ „νŠΈ λ²€μΉ˜λ§ˆν¬μ—μ„œ 유효 μ•‘μ…˜ 지평을 μœ μ˜λ―Έν•˜κ²Œ 쀄이고 κ³ μ •λœ μ»΄ν“¨νŒ… μ˜ˆμ‚° ν•˜μ—μ„œ μΆ”λ‘  νš¨μœ¨μ„±μ„ ν–₯μƒμ‹œμΌœ, μ•‘μ…˜ 토큰 및 μ‹€μ œ μΆ”λ‘  μ‹œκ°„μ„ 크게 λ‹¨μΆ•ν•˜λ©΄μ„œ μž‘μ—… 성곡λ₯ μ„ μœ μ§€ν•˜κ±°λ‚˜ κ°œμ„ ν•©λ‹ˆλ‹€.
β€’
μ•‘μ…˜ ν‘œν˜„ ν•™μŠ΅μ€ λͺ¨λΈ μ•„ν‚€ν…μ²˜ 및 ν•˜λ“œμ›¨μ–΄ λ°œμ „κ³Ό λ”λΆˆμ–΄ LLM μ—μ΄μ „νŠΈ νš¨μœ¨μ„± ν™•μž₯에 μ€‘μš”ν•œ, 아직 μΆ©λΆ„νžˆ νƒκ΅¬λ˜μ§€ μ•Šμ€ μš”μ†Œμž„μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
πŸ‘