haebom
Sign In
InfoPO: Information-Driven Policy Optimization for User-Centric Agents
Created by
Haebom
Category
Empty
์ ์
Fanqi Kong, Jiayi Zhang, Mingyi Deng, Chenglin Wu, Yuyu Luo, Bang Liu
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ LLM ์์ด์ ํธ๊ฐ ์ค์ ์ฌ์ฉ์ ์์ฒญ์ ์ฒ๋ฆฌํ ๋ ๋ฐ์ํ๋ ์ ๋ณด ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด InfoPO(Information-Driven Policy Optimization)๋ผ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. InfoPO๋ ๋ค์ค ํด ์ํธ์์ฉ์ ๋ถํ์ค์ฑ ๊ฐ์ ๊ณผ์ ์ผ๋ก ๋ณด๊ณ , ์ ๋ณด ํ๋์ผ๋ก ์ธํด ์์ด์ ํธ์ ํ๋ ๋ถํฌ๊ฐ ์ผ๋ง๋ ๋ณํํ๋์ง์ ๊ธฐ๋ฐํ ์ ๋ณด ์ด๋ ๋ณด์์ ๊ณ์ฐํฉ๋๋ค. ์ด๋ฅผ ํตํด ์์ ๊ฒฐ๊ณผ ๋ณด์๊ณผ ๊ฒฐํฉํ์ฌ ์ ๋ณด์ ์ค์์ฑ์ ํ์ ํ๊ณ ์ฌ์ฉ์ ์ค์ฌ์ ํ์ ์ ์ต์ ํํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
์ฌ์ฉ์์ ๋ถ์์ ํ ์์ฒญ์ ํจ๊ณผ์ ์ผ๋ก ๋์ํ๋ LLM ์์ด์ ํธ ๊ฐ๋ฐ์ ์๋ก์ด ๋ฐฉํฅ ์ ์
โข
์ ๋ณด ํ๋ ๊ณผ์ ์ ๊ฐ์น๋ฅผ ์ ๋ํํ์ฌ ๋ ํจ์จ์ ์ธ ๊ฐํํ์ต ๊ธฐ๋ฐ ์์ด์ ํธ ํ์ต ๊ฐ๋ฅ
โข
์ฌ์ฉ์ ์๋ฎฌ๋ ์ดํฐ ๋ณํ๋ ์๋ก์ด ํ๊ฒฝ์ ๋ํ ๊ฐ๊ฑด์ฑ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ ์ ์ฆ
โข
์ ๋ณด ์ด๋ ๋ณด์ ๊ณ์ฐ์ ๋ณต์ก์ฑ ๋ฐ ์ค์ ์ฌ์ฉ์ ์ํธ์์ฉ์์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ ํ์
PDF ๋ณด๊ธฐ
Made with Slashpage