Sign In

Curriculum-based Sample Efficient Reinforcement Learning for Robust Stabilization of a Quadrotor

Created by
  • Haebom
Category
Empty

μ €μž

Fausto Mauricio Lagos Suarez, Akshit Saradagi, Vidya Sumathy, Shruti Kotpaliwar, George Nikolakopoulos

πŸ’‘ κ°œμš”

λ³Έ 논문은 μΏΌλ“œλ‘œν„°μ˜ κ²¬κ³ ν•œ μžμ„Έ μ œμ–΄λ₯Ό μœ„ν•œ μƒ˜ν”Œ 효율적인 컀리큘럼 ν•™μŠ΅(CL) 기반 κ°•ν™”ν•™μŠ΅(RL) 정책을 μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ 3단계 μ»€λ¦¬ν˜λŸΌμ€ λ³΅μž‘λ„λ₯Ό μ μ§„μ μœΌλ‘œ 높이며, 각 λ‹¨κ³„μ˜ ν•™μŠ΅ λ‚΄μš©μ„ λ‹€μŒ λ‹¨κ³„λ‘œ μ „λ‹¬ν•˜μ—¬ ν›ˆλ ¨ νš¨μœ¨μ„±μ„ κ·ΉλŒ€ν™”ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 기쑴의 단일 단계 RL 방식 λŒ€λΉ„ 훨씬 적은 계산 μžμ›κ³Ό μ‹œκ°„μœΌλ‘œ λ›°μ–΄λ‚œ μ„±λŠ₯κ³Ό 견고성을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μƒ˜ν”Œ νš¨μœ¨μ„± κ·ΉλŒ€ν™”: 컀리큘럼 ν•™μŠ΅μ„ 톡해 λ³΅μž‘ν•œ RL 문제λ₯Ό 효율적으둜 λΆ„ν•΄ν•˜κ³  ν•™μŠ΅μ‹œμΌœ, μΏΌλ“œλ‘œν„° μ œμ–΄μ™€ 같이 μƒ˜ν”Œ νš¨μœ¨μ„±μ΄ μ€‘μš”ν•œ 뢄야에 효과적으둜 적용될 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
κ²¬κ³ ν•œ μ œμ–΄ μ„±λŠ₯ 확보: μ œμ•ˆλœ μ»€λ¦¬ν˜λŸΌμ€ λ‹€μ–‘ν•œ 초기 쑰건 및 λΉ„ν–‰ μ‹œλ‚˜λ¦¬μ˜€μ—μ„œλ„ μ•ˆμ •μ μΈ μžμ„Έ μ œμ–΄ μ„±λŠ₯을 보μž₯ν•˜λ©°, 특히 항곡 검사 μž‘μ—…μ— μš”κ΅¬λ˜λŠ” μš”κ΅¬μ‚¬ν•­μ„ μΆ©μ‘±ν•©λ‹ˆλ‹€.
β€’
ν•œκ³„μ : 3λ‹¨κ³„λ‘œ κ΅¬μ„±λœ 컀리큘럼의 μ΅œμ ν™” μ—¬λΆ€, μ‹€μ œ ν•˜λ“œμ›¨μ–΄ 적용 μ‹œμ˜ 좔가적인 κ³ λ € 사항 등에 λŒ€ν•œ 연ꡬ가 더 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘