haebom
Sign In
RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Yufeng Du, Phillip Harris, Minyang Tian, Eliu A Huerta, Srikanth Ronanki, Subendhu Rongali, Aram Galstyan, Hao Peng
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ Transformer ๊ธฐ๋ฐ์ ์ฅ๋ฌธ ๋งฅ๋ฝ ์ธ์ด ๋ชจ๋ธ์์ Rotary Positional Embeddings (RoPE)์ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ฅผ ์ด๋ก ์ ์ผ๋ก ๋ถ์ํฉ๋๋ค. ๋ถ์ ๊ฒฐ๊ณผ, ๋งฅ๋ฝ ๊ธธ์ด๊ฐ ๊ธธ์ด์ง์๋ก RoPE ๊ธฐ๋ฐ์ ์ดํ ์ ์ ์์ธก ๋ถ๊ฐ๋ฅํด์ง๋ฉฐ, ๊ฐ๊น์ด ์์น๋ฅผ ์ ํธํ๋ ์ง์ญ์ฑ ํธํฅ๊ณผ ํ ํฐ ๊ด๋ จ์ฑ์ ์ผ๊ด์ฑ์ด๋ผ๋ ๋ ๊ฐ์ง ํต์ฌ ์์ฑ์ ์๊ฒ ๋ฉ๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ์์น๋ ํ ํฐ์ ์ ๋๋ก ๊ตฌ๋ถํ์ง ๋ชปํ๊ฒ ๋ง๋ค๋ฉฐ, ํ๋ฅ ์ ์ผ๋ก ๋ฌด์์ ์ถ์ธก๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์ด์ง ๋ชปํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
RoPE๋ ์ฅ๋ฌธ ๋งฅ๋ฝ์์ ์์น ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ตฌ๋ถํ๋ ๋ฐ ํ๊ณ๊ฐ ์์ผ๋ฉฐ, ์ด๋ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ์ง์ญ์ฑ ํธํฅ๊ณผ ํ ํฐ ๊ด๋ จ์ฑ ์ผ๊ด์ฑ์ ์ ํดํฉ๋๋ค.
โข
RoPE base ํ์ดํผํ๋ผ๋ฏธํฐ ์กฐ์ ์ ์์น ๊ตฌ๋ถ ๋ฅ๋ ฅ๊ณผ ํ ํฐ ๊ตฌ๋ถ ๋ฅ๋ ฅ ๊ฐ์ ํธ๋ ์ด๋์คํ๋ฅผ ๋ฐ์์ํค๋ฉฐ, ๋ ๊ฐ์ง๋ฅผ ๋์์ ๋ณด์กดํ ์ ์์ต๋๋ค.
โข
๋ค์ค ํค๋, ๋ค์ค ๋ ์ด์ด ๊ตฌ์กฐ ๋ํ RoPE์ ์ด๋ฌํ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ฅผ ๊ทน๋ณตํ์ง ๋ชปํ๋ฉฐ, ์ฅ๋ฌธ ๋งฅ๋ฝ ๋ชจ๋ธ์ ์ํ ์๋ก์ด ์์น ๋ฐ ์์ ์ธ์ฝ๋ฉ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ์ ํ์์ฑ์ ์์ฌํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage