Sign In

Learning Reasoning Rewards from Expert Demonstrations with Inverse Reinforcement Learning

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Claudio Fanconi, Nicolas Astorga, Mihaela van der Schaar

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋ณต์žกํ•œ ์ถ”๋ก  ์ž‘์—…์—์„œ ๋ช…ํ™•ํ•œ ๋ณด์ƒ ํ•จ์ˆ˜ ์ •์˜์˜ ์–ด๋ ค์›€์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ „๋ฌธ๊ฐ€ ์‹œ์—ฐ์œผ๋กœ๋ถ€ํ„ฐ ์ถ”๋ก  ๋ณด์ƒ์„ ํ•™์Šตํ•˜๋Š” Reasoning Adversarial Inverse Reinforcement Learning (R-AIRL)์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. R-AIRL์€ ์ „๋ฌธ๊ฐ€์˜ ์‚ฌ๊ณ  ๊ณผ์ •(Chain-of-Thought)์—์„œ ์ง์ ‘์ ์œผ๋กœ ์ถ”๋ก  ๊ณผ์ •์„ ๋ชจ๋ฐฉํ•˜๋Š” ๋Œ€์‹ , ์ด๋ฉด์— ์ˆจ๊ฒจ์ง„ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์ถ”๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ›ˆ๋ จ ์‹ ํ˜ธ ์ œ๊ณต, ์ถ”๋ก  ์‹œ ์žฌ์ˆœ์œ„ํ™”, ๊ทธ๋ฆฌ๊ณ  ์ถ”๋ก  ์‹คํŒจ ์œ„์น˜ ํŒŒ์•… ๋“ฑ ๋‹ค์–‘ํ•œ ๋‹จ๊ณ„์—์„œ ํšจ๊ณผ์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ „๋ฌธ๊ฐ€ ์‹œ์—ฐ์—์„œ ๋ณต์žกํ•œ ์ถ”๋ก  ๊ณผ์ •์„ ์œ„ํ•œ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•˜์—ฌ, ๋ช…์‹œ์ ์ธ ๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„์˜ ์–ด๋ ค์›€์„ ๊ทน๋ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ•™์Šต๋œ ๋ณด์ƒ ํ•จ์ˆ˜๋Š” ๋ชจ๋ธ ํ›ˆ๋ จ, ์ถ”๋ก  ์‹œ ์žฌ์ˆœ์œ„ํ™”, ๊ทธ๋ฆฌ๊ณ  ์ถ”๋ก  ๊ณผ์ • ์ž์ฒด ํ‰๊ฐ€์— ํ™œ์šฉ๋˜์–ด ์ „๋ฐ˜์ ์ธ ์ถ”๋ก  ์„ฑ๋Šฅ๊ณผ ๋ถ„์„ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
โ€ข
R-AIRL์€ ๋ชจ๋ฐฉ ํ•™์Šต๊ณผ ๋ณด์ƒ ๊ธฐ๋ฐ˜ ์ตœ์ ํ™”๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ, ์ „๋ฌธ๊ฐ€์˜ ์‚ฌ๊ณ  ํ”์ ์—์„œ ์˜๋ฏธ ์žˆ๋Š” ์ถ”๋ก  ์‹ ํ˜ธ๋ฅผ ์ถ”์ถœํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•๋ก ์ด ํŠน์ • ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ์ž‘์—…์— ์–ผ๋งˆ๋‚˜ ์ผ๋ฐ˜ํ™”๋  ์ˆ˜ ์žˆ๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘