Sign In

Deep deterministic policy gradient with symmetric data augmentation for lateral attitude tracking control of a fixed-wing aircraft

Created by
  • Haebom
Category
Empty

์ €์ž

Yifei Li, Erik-Jan van Kampen

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ํ•ญ๊ณต๊ธฐ์˜ ํšก๋ฐฉํ–ฅ ์ž์„ธ ์ œ์–ด ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(MDP)์˜ ๋Œ€์นญ์„ฑ์„ ํ™œ์šฉํ•˜์—ฌ ์ƒ˜ํ”Œ ํšจ์œจ์ ์ธ ์˜คํ”„๋ผ์ธ ๊ฐ•ํ™”ํ•™์Šต(RL) ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. ์ œ์•ˆ๋œ ๋Œ€์นญ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์€ Deep Deterministic Policy Gradient (DDPG) ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ƒํƒœ-ํ–‰๋™ ๊ณต๊ฐ„ ์ปค๋ฒ„๋ฆฌ์ง€๋ฅผ ๋†’์ด๊ณ , ์ถ”๊ฐ€์ ์ธ ๋ณด์กฐ ํฌ๋ฆฌํ‹ฑ ๋„คํŠธ์›Œํฌ๋ฅผ ํ†ตํ•ด ์ƒ˜ํ”Œ ํ™œ์šฉ ํšจ์œจ์„ฑ์„ ์ฆ๋Œ€์‹œํ‚จ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ•ญ๊ณต๊ธฐ ๋ชจ๋ธ์˜ ๋Œ€์นญ์„ฑ์„ ๊ฒ€์ฆํ•˜๊ณ , ์ œ์–ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ์ •์ฑ… ์ˆ˜๋ ด ๊ฐ€์†ํ™”๋ฅผ ์ž…์ฆํ•œ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋™์  ์‹œ์Šคํ…œ์˜ ๋Œ€์นญ์„ฑ์„ ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์€ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.
โ€ข
๋“€์–ผ ํฌ๋ฆฌํ‹ฑ ๊ตฌ์กฐ๋Š” ์ฆ๊ฐ•๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•˜์—ฌ ์ •์ฑ… ํ•™์Šต์„ ๋”์šฑ ๊ฒฌ๊ณ ํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•๋ก ์€ ํ•ญ๊ณต๊ธฐ ํšก๋ฐฉํ–ฅ ์ž์„ธ ์ œ์–ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๊ธฐ์กด DDPG ๋Œ€๋น„ ๋น ๋ฅธ ์ •์ฑ… ์ˆ˜๋ ด์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, ์‹ค์ œ ์‹œ์Šคํ…œ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์‹œ์‚ฌํ•œ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ๋Š” ๋Œ€์นญ์„ฑ์„ ๊ฐ€์ •ํ•˜๋Š” MDP์— ๊ตญํ•œ๋˜๋ฉฐ, ์‹ค์ œ ๋ณต์žกํ•˜๊ณ  ๋น„๋Œ€์นญ์ ์ธ ๋™์  ์‹œ์Šคํ…œ์œผ๋กœ์˜ ์ผ๋ฐ˜ํ™” ๋ฐ ๋‹ค์–‘ํ•œ ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์—์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค.
๐Ÿ‘