haebom
Sign In
Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Large Vision-Language Models
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Chengcheng Wang, Jianyuan Guo, Hongguang Li, Yuchuan Tian, Ying Nie, Chang Xu, Kai Han
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ๋น์ -์ธ์ด ๋ชจ๋ธ(VLM)์์ ๋ฐ์ํ๋ ํ ์คํธ์ ์ด๋ฏธ์ง ์์น ์ ๋ณด์ ์๋ชป๋ ๊ฒฐํฉ์ผ๋ก ์ธํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด Circle-RoPE๋ฅผ ์ ์ํฉ๋๋ค. Circle-RoPE๋ ์ด๋ฏธ์ง ํ ํฐ์ 2D ์ขํ๋ฅผ ํ ์คํธ ์์น ์ถ์ ์ง๊ตํ๋ ํํ ๊ณต๊ฐ์ผ๋ก ์ฌ๋งคํํ์ฌ, ๊ฐ ํ ์คํธ ํ ํฐ์ด ๋ชจ๋ ์ด๋ฏธ์ง ํ ํฐ๊ณผ ๋์ผํ ๊ฑฐ๋ฆฌ๋ฅผ ์ ์งํ๋ฉด์๋ ์ด๋ฏธ์ง ๋ด๋ถ์ ๊ณต๊ฐ ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ๋ ์๋ฟ ํํ์ ๊ธฐํํ์ ๊ตฌ์กฐ๋ฅผ ์์ฑํฉ๋๋ค. ๋ํ, Circle-RoPE์ ๋ถ๋ฆฌ๋ ๊ธฐํํ๊ณผ ๊ธฐ์กด RoPE์ ๊ทธ๋ฆฌ๋ ๊ธฐ๋ฐ ์ฌ์ ์ ๋ณด๋ฅผ ๋ ์ด์ด๋ณ๋ก ๊ต์ฐจ ์ ์ฉํ๋ AGE ๊ธฐ๋ฒ์ ๋์ ํ์ฌ, ๊ต์ฐจ ๋ชจ๋ฌ ์์น ์ ๋ณด์ ๋ถ๋ฆฌ ๋ฐ ์ด๋ฏธ์ง ๋ด๋ถ์ ์ธ๋ฐํ ๊ณต๊ฐ ๊ตฌ์กฐ ๋ณด์กด์ ๋์์ ๋ฌ์ฑํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๊ต์ฐจ ๋ชจ๋ฌ ์์น ์ ๋ณด ๋ถ๋ฆฌ:
Circle-RoPE๋ ํ ์คํธ์ ์ด๋ฏธ์ง ํ ํฐ ๊ฐ์ ์์น ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ถ๋ฆฌํ์ฌ, ๊ธฐ์กด RoPE์์ ๋ฐ์ํ ์ ์๋ ์๋ชป๋ ์๋์ ์์น ํธํฅ์ ์ ๊ฑฐํฉ๋๋ค.
โข
๊ธฐํํ์ ์ฌ์ ์ ๋ณด์ ํ์ฉ:
ํํ ๊ณต๊ฐ ์ฌ๋งคํ๊ณผ ๊ต์ฐจ ๋ ์ด์ด ๊ธฐํํ์ ์ ๋ณด ํ์ฉ(AGE)์ ํตํด, ๋ชจ๋ธ์ ๊ณต๊ฐ์ ์ดํด ๋ฅ๋ ฅ์ ํฅ์์ํค๋ฉด์๋ ์ด๋ฏธ์ง ๋ด๋ถ์ ์ธ๋ฐํ ๊ณต๊ฐ ๊ด๊ณ๋ฅผ ์ ์งํ ์ ์์ต๋๋ค.
โข
์คํ์ ๊ฒ์ฆ ๋ฐ ์ฑ๋ฅ ํฅ์:
๋ค์ํ VLM ์ํคํ ์ฒ์ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ์์ Circle-RoPE์ AGE๋ฅผ ์ ์ฉํ์ ๋, ๊ณต๊ฐ ์ ์ง(spatial grounding) ๋ฐ ์๊ฐ์ ์ถ๋ก (visual reasoning) ์ฑ๋ฅ์ด ์ผ๊ด์ ์ผ๋ก ํฅ์๋จ์ ์ ์ฆํ์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage