haebom
Sign In
Curriculum-based Sample Efficient Reinforcement Learning for Robust Stabilization of a Quadrotor
Created by
Haebom
Category
Empty
μ μ
Fausto Mauricio Lagos Suarez, Akshit Saradagi, Vidya Sumathy, Shruti Kotpaliwar, George Nikolakopoulos
π‘ κ°μ
λ³Έ λ Όλ¬Έμ μΏΌλλ‘ν°μ κ²¬κ³ ν μμΈ μ μ΄λ₯Ό μν μν ν¨μ¨μ μΈ μ»€λ¦¬νλΌ νμ΅(CL) κΈ°λ° κ°ννμ΅(RL) μ μ± μ μ μν©λλ€. μ μλ 3λ¨κ³ 컀리νλΌμ 볡μ‘λλ₯Ό μ μ§μ μΌλ‘ λμ΄λ©°, κ° λ¨κ³μ νμ΅ λ΄μ©μ λ€μ λ¨κ³λ‘ μ λ¬νμ¬ νλ ¨ ν¨μ¨μ±μ κ·Ήλνν©λλ€. μ΄λ₯Ό ν΅ν΄ κΈ°μ‘΄μ λ¨μΌ λ¨κ³ RL λ°©μ λλΉ ν¨μ¬ μ μ κ³μ° μμκ³Ό μκ°μΌλ‘ λ°μ΄λ μ±λ₯κ³Ό κ²¬κ³ μ±μ λ¬μ±νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
μν ν¨μ¨μ± κ·Ήλν:
컀리νλΌ νμ΅μ ν΅ν΄ 볡μ‘ν RL λ¬Έμ λ₯Ό ν¨μ¨μ μΌλ‘ λΆν΄νκ³ νμ΅μμΌ, μΏΌλλ‘ν° μ μ΄μ κ°μ΄ μν ν¨μ¨μ±μ΄ μ€μν λΆμΌμ ν¨κ³Όμ μΌλ‘ μ μ©λ μ μμ΅λλ€.
β’
κ²¬κ³ ν μ μ΄ μ±λ₯ ν보:
μ μλ 컀리νλΌμ λ€μν μ΄κΈ° 쑰건 λ° λΉν μλ리μ€μμλ μμ μ μΈ μμΈ μ μ΄ μ±λ₯μ 보μ₯νλ©°, νΉν ν곡 κ²μ¬ μμ μ μꡬλλ μꡬμ¬νμ μΆ©μ‘±ν©λλ€.
β’
νκ³μ :
3λ¨κ³λ‘ ꡬμ±λ 컀리νλΌμ μ΅μ ν μ¬λΆ, μ€μ νλμ¨μ΄ μ μ© μμ μΆκ°μ μΈ κ³ λ € μ¬ν λ±μ λν μ°κ΅¬κ° λ νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage