Sign In

Conservative Equilibrium Discovery in Offline Game-Theoretic Multiagent Reinforcement Learning

Created by
  • Haebom
Category
Empty

์ €์ž

Austin A. Nguyen, Michael P. Wellman

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ณ ์ •๋œ ๋ฐ์ดํ„ฐ์…‹๋งŒ์„ ํ™œ์šฉํ•˜๋Š” ์˜คํ”„๋ผ์ธ ํ™˜๊ฒฝ์—์„œ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๊ฒŒ์ž„์˜ ๊ท ํ˜•(equilibrium)์„ ์ฐพ๋Š” ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ๊ธฐ์กด ์˜คํ”„๋ผ์ธ ํ•™์Šต์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ๋ถˆํ™•์‹ค์„ฑ์„ ์ •๋Ÿ‰ํ™”ํ•˜๊ณ  ๋‚ฎ์€ ํ›„ํšŒ(regret)๋ฅผ ๊ฐ€์งˆ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ํ•ด๋ฒ•์„ ์„ ํ˜ธํ•˜๋„๋ก ๊ฐ•ํ™”ํ•™์Šต ๋ชฉํ‘œ๋ฅผ ์ˆ˜์ •ํ•˜๋Š” COffeE-PSRO๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, COffeE-PSRO๋Š” ์ตœ์ฒจ๋‹จ ์˜คํ”„๋ผ์ธ ์ ‘๊ทผ ๋ฐฉ์‹๋ณด๋‹ค ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์˜คํ”„๋ผ์ธ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๊ฒŒ์ž„ ํ™˜๊ฒฝ์—์„œ ๋‚ฎ์€ ํ›„ํšŒ(low regret)๋ฅผ ๊ฐ€์ง€๋Š” ํ•ด๋ฒ•์„ ํƒ์ƒ‰ํ•˜๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ฐ์ดํ„ฐ์…‹์˜ ๋ถˆํ™•์‹ค์„ฑ์„ ๊ณ ๋ คํ•˜๊ณ  ๋ณด์ˆ˜์ ์ธ ํƒ์ƒ‰ ์ „๋žต์„ ํ†ตํ•ด ์˜คํ”„๋ผ์ธ ํ•™์Šต์˜ ์•ˆ์ •์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•๋ก ์˜ ์„ฑ๋Šฅ์€ ๋ฐ์ดํ„ฐ์…‹์˜ ํ’ˆ์งˆ๊ณผ ๊ฒŒ์ž„์˜ ๋ณต์žก์„ฑ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์‹ค์ œ ๊ฒŒ์ž„์˜ ๋ณต์žกํ•œ ๋™์  ํŠน์„ฑ์„ ์™„์ „ํžˆ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘