haebom
Sign In
When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Jun Liu, Pu Zhao, Zhenglun Kong, Xuan Shen, Peiyan Dong, Fan Yang, Lin Cui, Hao Tang, Geng Yuan, Wei Niu, Wenbin Zhang, Xue Lin, Gaowen Liu, Yanzhi Wang, Dong Huang
π‘ κ°μ
λ‘λ΄μ΄ νκ²½κ³Ό μνΈμμ©ν λ LLM κΈ°λ° μμ΄μ νΈλ κ³ μμ€ μΆλ‘ λ° μμ¬κ²°μ μ μ€μνμ§λ§, LLM νΈμΆμ μλΉν μ§μ°κ³Ό μμ μλͺ¨λ₯Ό μ λ°ν©λλ€. λ³Έ λ Όλ¬Έμ λ‘λ΄μ΄ μΈμ μΆλ‘ νκ³ μΈμ νλν΄μΌ νλμ§μ λν κ·Όλ³Έμ μΈ λ¬Έμ λ₯Ό ν΄κ²°νκ³ μ ν©λλ€. μ΄λ₯Ό μν΄ RARRL(Resource-Aware Reasoning via Reinforcement Learning)μ΄λΌλ κ³μΈ΅μ νλ μμν¬λ₯Ό μ μνλ©°, μ΄λ κ΄μ°°, μ€ν κΈ°λ‘, λ¨μ μμμ κΈ°λ°μΌλ‘ μΆλ‘ μ¬λΆ, μΆλ‘ μν , κ³μ° μμ°μ μ μμ μΌλ‘ κ²°μ ν©λλ€.
π μμ¬μ λ° νκ³
β’
λ‘λ΄μ΄ LLM μΆλ‘ μ μΈμ , μ΄λ»κ² μ¬μ©ν μ§ μμ μ μ½μ κ³ λ €νμ¬ λμ μΌλ‘ κ²°μ νλ κ²μ΄ ν¨μ¨μ μ΄κ³ μ λ’°μ± μλ λ‘λ΄ μμ€ν ꡬμΆμ νμμ μ λλ€.
β’
RARRLμ λ€μν μν©μμ μΆλ‘ μ μ΅μ ννμ¬ μμ μ±κ³΅λ₯ μ λμ΄κ³ μ§μ° μκ°μ μ€μ΄λ©° κ²¬κ³ μ±μ ν₯μμμΌ°μ΅λλ€.
β’
νμ¬ μ°κ΅¬λ νΉμ λ‘λ΄ νλ«νΌ λ° νκ²½μ λν μ€νμΌλ‘ μ§νλμμΌλ©°, λ€μν λ‘λ΄ νλμ¨μ΄ λ° λ³΅μ‘ν μ€μ νκ²½μΌλ‘μ μΌλ°νλ μΆκ° μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage