Sign In

CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs

Created by
  • Haebom
Category
Empty

์ €์ž

Richard Bornemann, Pierluigi Vito Amadori, Antoine Cully

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ AI ์—์ด์ „ํŠธ๊ฐ€ ์‚ฌ์ „์— ์ •์˜๋œ ๋ณด์ƒ ํ•จ์ˆ˜ ์—†์ด๋„ ์ƒˆ๋กญ๊ณ  ๋ณต์žกํ•œ ๊ธฐ์ˆ ์„ ์ง€์†์ ์œผ๋กœ ๋ฐœ๊ฒฌํ•˜๊ณ  ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” CODE-SHARP ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. CODE-SHARP๋Š” ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ(FM)์„ ํ™œ์šฉํ•˜์—ฌ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ ํ•จ์ˆ˜๋กœ ๊ตฌ์„ฑ๋œ ๊ณ„์ธต์  ๊ธฐ์ˆ  ์•„์นด์ด๋ธŒ๋ฅผ ํ™•์žฅ ๋ฐ ๊ฐœ์„ ํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์—์ด์ „ํŠธ๋Š” Craftax ํ™˜๊ฒฝ์—์„œ ์ ์ง„์ ์œผ๋กœ ๋” ์–ด๋ ค์šด ๊ณผ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋„๋ก ํ›ˆ๋ จ๋œ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ, CODE-SHARP๋Š” ๊ธฐ์กด ๋ฐฉ์‹๋ณด๋‹ค ํ›จ์”ฌ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์œผ๋กœ ๋ณต์žกํ•œ ์žฅ๊ธฐ ๊ณผ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์—์ด์ „ํŠธ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ƒˆ๋กœ์šด ๊ธฐ์ˆ  ๋ฐœ๊ฒฌ ๋ฐ ๊ณ„์ธต์  ํ•™์Šต ๋Šฅ๋ ฅ: CODE-SHARP๋Š” ์ˆ˜๋™ ๋ณด์ƒ ํ•จ์ˆ˜ ์„ค๊ณ„์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ AI ์—์ด์ „ํŠธ๊ฐ€ ์Šค์Šค๋กœ ์ƒˆ๋กญ๊ณ  ๊ณ„์ธต์ ์ธ ๊ธฐ์ˆ ์„ ๋ฐœ๊ฒฌํ•˜๊ณ  ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค.
โ€ข
๋ณต์žกํ•œ ์žฅ๊ธฐ ๊ณผ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ ํ–ฅ์ƒ: ๋ฐœ๊ฒฌ๋œ ๊ธฐ์ˆ ๋“ค์˜ ํšจ๊ณผ์ ์ธ ์กฐํ•ฉ์€ ์—์ด์ „ํŠธ๊ฐ€ ์ธ๊ฐ„์ด ์„ค๊ณ„ํ•œ ์ „๋ฌธ๊ฐ€ ์ •์ฑ…์ด๋‚˜ ๊ธฐ์กด ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์—์ด์ „ํŠธ๋ณด๋‹ค ํ›จ์”ฌ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋„๋ก ํ•œ๋‹ค.
โ€ข
์ผ๋ฐ˜ํ™” ๋ฐ ํ™•์žฅ์„ฑ: ์ œ์•ˆ๋œ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” Craftax ํ™˜๊ฒฝ์— ๊ตญํ•œ๋˜์ง€ ์•Š๊ณ , ํ–ฅํ›„ ๋” ๋„“์€ ๋ฒ”์œ„์˜ ๋ณต์žกํ•œ ๊ณผ์ œ์™€ ํ™˜๊ฒฝ์œผ๋กœ ํ™•์žฅ๋  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ๋ ฅ์„ ๊ฐ€์ง„๋‹ค.
โ€ข
ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์˜์กด์„ฑ ๋ฐ ๊ณ„์‚ฐ ๋ณต์žก์„ฑ: CODE-SHARP๋Š” ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์— ํฌ๊ฒŒ ์˜์กดํ•˜๋ฏ€๋กœ, ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ๊ณผ ํ•™์Šต ํšจ์œจ์„ฑ์— ๋”ฐ๋ผ ์ „์ฒด ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ์ด ๊ฒฐ์ •๋  ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ, ๊ธฐ์ˆ ์˜ ๋ฐœ๊ฒฌ ๋ฐ ์ง„ํ™” ๊ณผ์ •์—์„œ ์ƒ๋‹นํ•œ ๊ณ„์‚ฐ ์ž์›์ด ์š”๊ตฌ๋  ์ˆ˜ ์žˆ๋‹ค.
๐Ÿ‘