Sign In

Flexible Agent Alignment with Goal Inference from Open-Ended Dialog

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Rachel Ma, Jingyi Qu, Andreea Bobu, Dylan Hadfield-Menell

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๊ฐ€ ์‚ฌ์šฉ์ž์˜ ๋ช…์‹œ๋˜์ง€ ์•Š๊ณ  ์ง„ํ™”ํ•˜๋Š” ์„ ํ˜ธ๋„๋ฅผ ์ดํ•ดํ•˜๊ณ  ๋”ฐ๋ฅด๋„๋ก ๋•๋Š” "Open-Universe Assistance Games (OU-AGs)"๋ผ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ์ƒํ˜ธ์ž‘์šฉ ์†์—์„œ ์‚ฌ์šฉ์ž์˜ ์˜๋„๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ํŒŒ์•…ํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช๋Š” ๊ธฐ์กด LLM ์—์ด์ „ํŠธ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ ์ž, ์ž์—ฐ์–ด ๋ชฉํ‘œ์— ๋Œ€ํ•œ ๋™์ ์œผ๋กœ ์—…๋ฐ์ดํŠธ๋˜๋Š” ํ™•๋ฅ  ๋ถ„ํฌ๋กœ ์ธ๊ฐ„ ์„ ํ˜ธ๋„๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด, ์ƒํ˜ธ์ž‘์šฉ ์ค‘์— ํ›„๋ณด ๋ชฉํ‘œ๋ฅผ ์ถ”์ถœํ•˜๊ณ  ์ˆœ์œ„๋ฅผ ๋งค๊ธฐ๋Š” ๋ฐ์ดํ„ฐ ํšจ์œจ์ ์ธ ์˜จ๋ผ์ธ ๋ฐฉ๋ฒ•์ธ GOOD์„ ๊ฐœ๋ฐœํ•˜์—ฌ, ๋ช…ํ™•ํ•˜๊ณ  ๋ถˆํ™•์‹ค์„ฑ์„ ๊ณ ๋ คํ•œ ์„ ํ˜ธ๋„ ํ‘œํ˜„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๊ณ  ์‚ฌ์šฉ์ž ์˜๋„์™€์˜ ์ •๋ ฌ์„ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋™์ ์ด๊ณ  ๋ถˆํ™•์‹คํ•œ ์ธ๊ฐ„ ์„ ํ˜ธ๋„ ๋ชจ๋ธ๋ง: ๊ธฐ์กด์˜ ๊ณ ์ •๋œ ์„ ํ˜ธ๋„ ๊ฐ€์ •์—์„œ ๋ฒ—์–ด๋‚˜, ๋Œ€ํ™” ์ค‘์— ๋ณ€ํ™”ํ•˜๊ณ  ๋ช…ํ™•ํ•˜์ง€ ์•Š์€ ์ธ๊ฐ„์˜ ๋ชฉํ‘œ๋ฅผ ๋™์ ์œผ๋กœ ์ถ”๋ก ํ•˜๊ณ  ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋ฐ์ดํ„ฐ ํšจ์œจ์ ์ธ ์˜จ๋ผ์ธ ํ•™์Šต: ๋Œ€๊ทœ๋ชจ ์˜คํ”„๋ผ์ธ ๋ฐ์ดํ„ฐ์…‹ ์—†์ด๋„, LLM ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์‚ฌ์šฉ์ž ๊ธฐ๋ฐ˜์˜ ํ™•๋ฅ ์  ์ถ”๋ก ์„ ํ†ตํ•ด ๋ชฉํ‘œ๋ฅผ ์ถ”์ถœํ•˜๊ณ  ์‚ฌ์šฉ์ž ์˜๋„์™€์˜ ์ •๋ ฌ์„ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ: ์‹๋ฃŒํ’ˆ ์‡ผํ•‘, ๋กœ๋ด‡ ์ œ์–ด, ์ฝ”๋”ฉ ๋“ฑ ๋‹ค์–‘ํ•œ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ๋„๋ฉ”์ธ์—์„œ ํšจ๊ณผ๋ฅผ ์ž…์ฆํ•˜์—ฌ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
LLM ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์‚ฌ์šฉ์ž์˜ ํ•œ๊ณ„: ์‹ค์ œ ์ธ๊ฐ„ ์‚ฌ์šฉ์ž์˜ ๋ณต์žกํ•˜๊ณ  ์˜ˆ์ธก ๋ถˆ๊ฐ€๋Šฅํ•œ ํ–‰๋™์„ ์™„๋ฒฝํ•˜๊ฒŒ ๋ชจ์‚ฌํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” GOOD์˜ ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘