haebom
Sign In
Beyond Autoregressive RTG: Conditioning via Injection Outside Sequential Modeling in Decision Transformer
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Yongyi Wang, Hanyu Liu, Lingfeng Li, Bozhou Chen, Ang Li, Qirui Zheng, Xionghui Yang, Chucai Wang, Wenxin Li
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์กด Decision Transformer (DT)๊ฐ Return-to-Go (RTG) ์ ๋ณด๋ฅผ ๊ฐ๋ณ ํ ํฐ์ผ๋ก ์ฒ๋ฆฌํ์ฌ ๋ฐ์ํ๋ ๊ณ์ฐ ๋นํจ์จ์ฑ์ ์ง์ ํฉ๋๋ค. ์ ์๋ SlimDT๋ RTG ์ ๋ณด๋ฅผ ์์ฐจ ๋ชจ๋ธ๋ง ์ ์ ์ํ ํํ์ ์ฃผ์ ํ์ฌ, RTG ํ ํฐ์ ์ ๊ฑฐํ๊ณ ์ํ์ค ๊ธธ์ด๋ฅผ ๋จ์ถํจ์ผ๋ก์จ ํจ์จ์ฑ์ ๊ฐ์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด D4RL ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด DT๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
์ ๋ณด๋์ด ์ ์ RTG๋ฅผ ๋ณ๋ ํ ํฐ์ผ๋ก ์ฒ๋ฆฌํ๋ ๋์ , ์ํ ์ ๋ณด์ ํตํฉํจ์ผ๋ก์จ ์ฐ์ฐ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์ต๋๋ค.
โข
์์ฐจ ๋ชจ๋ธ๋ง ์ธ๋ถ์์ ์กฐ๊ฑด์ ์ฃผ์ ํ๋ ๋ฐฉ์์ ๊ณ์ฐ ๋น์ฉ ์ ๊ฐ๊ณผ ๋์์ ๋ชจ๋ธ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์ฌ ์ ์์ต๋๋ค.
โข
RTG ์ธ ๋ค๋ฅธ ํํ์ ์กฐ๊ฑด ์ ํธ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ๊ธฐ ์ํ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage