haebom
Sign In
Beyond Trajectory-Level Attribution: Graph-Based Credit Assignment for Agentic Reinforcement Learning
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Xin Cheng, Shuo He, Lang Feng, HaiYang Xu, Ming Yan, Lei Feng, Bo An
๐ก ๊ฐ์
๊ธฐ์กด ๊ทธ๋ฃน ๊ธฐ๋ฐ ๊ฐํํ์ต(RL) ๋ฐฉ๋ฒ๋ก ์ ์ต์ข ๊ฒฐ๊ณผ์ ๊ธฐ๋ฐํ ๊ฑฐ์น ๊ถค์ ์์ค์ ๊ธฐ์ฌ๋ ํ ๋น์ ์์กดํ์ฌ ๊ฐ๋ณ ์คํ ์ ๊ธฐ์ฌ๋๋ฅผ ์ ํํ ํ์ ํ๊ธฐ ์ด๋ ต๋ค๋ ๋ฌธ์ ๋ฅผ ์๊ณ ์์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ชจ๋ ๋กค์์ ๊ถค์ ์ ํตํฉ๋ ์ํ-์ ์ด ๊ทธ๋ํ๋ก ์ง๊ณํ๊ณ , ๊ทธ๋ํ์ ์ธ์ฝ๋ฉ๋ ์ ์ญ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ๊ฐ ์ํ์์ ๋ชฉํ๊น์ง์ ๊ฑฐ๋ฆฌ๋ฅผ ์ถ์ ํ๋ GraphGPO๋ฅผ ์ ์ํฉ๋๋ค. GraphGPO๋ ๊ทธ๋ํ ๊ธฐ๋ฐ์ ์ฅ์ (advantage)์ ์ถ์ ํ์ฌ ๊ฐ ์ ํ(edge)์ ๊ธฐ์ฌ๋๋ฅผ ํ ๋นํจ์ผ๋ก์จ ํ๋ จ ํจ์จ์ฑ์ ๋์ด๊ณ ๋ค์ํ ๋ฒค์น๋งํฌ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๊ถค์ ์์ค์ ๋จ์ํ ๊ธฐ์ฌ๋ ํ ๋น์์ ๋ฒ์ด๋, ์ํ-์ ์ด ๊ทธ๋ํ๋ฅผ ํตํด ๊ฐ๋ณ ์คํ ์ ๊ฐ์น๋ฅผ ๋์ฑ ์ ๊ตํ๊ฒ ํ๊ฐํ ์ ์์ต๋๋ค.
โข
์คํจํ ๊ถค์ ์์์๋ ์ ์๋ฏธํ ์คํ ์ ๊ธฐ์ฌ๋๋ฅผ ๋ฐ๊ตดํ์ฌ ํ์ต ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์ต๋๋ค.
โข
์ํ-์ ์ด ๊ทธ๋ํ ๊ตฌ์ถ ๋ฐ ์ ๋ณด ํ์ฉ์ ๋ํ ๊ณ์ฐ ๋ณต์ก์ฑ ์ฆ๊ฐ ๊ฐ๋ฅ์ฑ.
PDF ๋ณด๊ธฐ
Made with Slashpage