haebom
Sign In
Difficulty-Estimated Policy Optimization
Created by
Haebom
Category
Empty
์ ์
Yu Zhao, Fan Jiang, Tianle Liu, Bo Zeng, Yu Liu, Longyue Wang, Weihua Luo
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ถ๋ก ๋ชจ๋ธ(LRM) ํ๋ จ ์ ๋ฐ์ํ๋ ๊ทธ๋๋์ธํธ ์ ํธ ๊ฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Difficulty-Estimated Policy Optimization (DEPO)์ด๋ผ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. DEPO๋ ์จ๋ผ์ธ ๋์ด๋ ์ถ์ ๊ธฐ๋ฅผ ํ์ฉํ์ฌ ํ์ต ์ ์ฌ๋ ฅ์ด ๋์ ์ํ์ ๊ณ์ฐ ์์์ ์ง์คํจ์ผ๋ก์จ ๋กค์์ ๋น์ฉ์ ์ต๋ 2๋ฐฐ๊น์ง ์ค์ด๋ฉด์๋ ๋ชจ๋ธ ์ฑ๋ฅ์ ์ ์งํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ณ ์ฑ๋ฅ ์ถ๋ก ๋ชจ๋ธ ํ๋ จ์ ๊ณ์ฐ ๋ถ๋ด์ ๋ฎ์ถ๊ณ ์ง์ ๊ฐ๋ฅํ ์ถ๋ก ํ์ฅ ๊ฒฝ๋ก๋ฅผ ์ ์ํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
ํ๋ จ ๋ฐ์ดํฐ์ ํ์ต ์ ์ฌ๋ ฅ์ ๋์ ์ผ๋ก ํ๊ฐํ๊ณ ํํฐ๋งํจ์ผ๋ก์จ ๊ณ์ฐ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์ต๋๋ค.
โข
์ถ๋ก ๋ชจ๋ธ ํ๋ จ์ ๊ณ์ฐ ๋น์ฉ์ ์ ๊ฐํ์ฌ ๊ณ ์ฑ๋ฅ ๋ชจ๋ธ ๊ฐ๋ฐ์ ์ ๊ทผ์ฑ์ ๋์ ๋๋ค.
โข
์จ๋ผ์ธ ๋์ด๋ ์ถ์ ๊ธฐ์ ์ ํ๋์ ์ผ๋ฐํ ์ฑ๋ฅ์ด DEPO์ ์ ์ฒด์ ์ธ ํจ๊ณผ์ ์ํฅ์ ๋ฏธ์น ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage