haebom
Sign In
Latent Action Reparameterization for Efficient Agent Inference
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Wenhao Huang, Qingwen Zeng, Qiyue Chen, Zijie Guo, Yu Sun, Cheng Yang, Siru Ouyang, Jiri Gesi, Fang Wu, Jiayi Zhang, Huaming Chen, Bang Liu, Xiangru Tang, Chenglin Wu
π‘ κ°μ
λ³Έ λ Όλ¬Έμ LLM μμ΄μ νΈκ° μ¬μ©νλ μ μμ€ ν μ€νΈ μ‘μ μνμ€λ‘ μΈν λμ μΆλ‘ λΉμ© λ¬Έμ λ₯Ό ν΄κ²°νκ³ μ ν©λλ€. μ΄λ₯Ό μν΄ λ©ν°μ€ν μλ―Έλ‘ μ νλμ ν΄λΉνλ μμΆλ μ μ¬ μ‘μ 곡κ°μ νμ΅νλ Latent Action Reparameterization (LAR) νλ μμν¬λ₯Ό μ μν©λλ€. LARλ μμ΄μ νΈμ νλμ μ μ¬ λ¨μλ‘ μ¬λ§€κ°λ³μννμ¬ μμ¬κ²°μ μ μ ν¨ μκ° μ§νμ λ¨μΆμν€λ©΄μλ μλ μ‘μ 곡κ°μ ννλ ₯μ μ μ§ν©λλ€.
π μμ¬μ λ° νκ³
β’
LLM μμ΄μ νΈμ μ‘μ κ³΅κ° νν νμ΅μ΄ μΆλ‘ ν¨μ¨μ± ν₯μμ ν΅μ¬ μμμμ 보μ¬μ€λλ€.
β’
LARλ μμμ λ§€ν¬λ‘λ κ³μΈ΅μ 컨νΈλ‘€λ¬μ λ¬λ¦¬ μμ΄μ νΈ κΆ€μ λ‘λΆν° μ μ¬ μ‘μ μ νμ΅νκ³ λͺ¨λΈμ μ§μ ν΅ν©νμ¬ κ³ν λ° μ€νμ μΆμμ μΈ μ‘μ ννμΌλ‘ μνν μ μκ² ν©λλ€.
β’
LARλ λ€μν LLM κΈ°λ° μμ΄μ νΈ λ²€μΉλ§ν¬μμ μ ν¨ μ‘μ μ§νμ μ μλ―Ένκ² μ€μ΄κ³ κ³ μ λ μ»΄ν¨ν μμ° νμμ μΆλ‘ ν¨μ¨μ±μ ν₯μμμΌ, μ‘μ ν ν° λ° μ€μ μΆλ‘ μκ°μ ν¬κ² λ¨μΆνλ©΄μ μμ μ±κ³΅λ₯ μ μ μ§νκ±°λ κ°μ ν©λλ€.
β’
μ‘μ νν νμ΅μ λͺ¨λΈ μν€ν μ² λ° νλμ¨μ΄ λ°μ κ³Ό λλΆμ΄ LLM μμ΄μ νΈ ν¨μ¨μ± νμ₯μ μ€μν, μμ§ μΆ©λΆν νꡬλμ§ μμ μμμμ μμ¬ν©λλ€.
PDF 보기
Made with Slashpage