haebom
Sign In
ReSpinQuant: Efficient Layer-Wise LLM Quantization via Subspace Residual Rotation Approximation
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Suyoung Kim, Sunghyun Wee, Hyeonjin Kim, Kyomin Hwang, Hyunho Lee, Nojun Kwak
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ์์ํ์์ ๋ฐ์ํ๋ ํ์ฑํ ๊ฐ ์ด์์น ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ธ ReSpinQuant๋ฅผ ์ ์ํฉ๋๋ค. ReSpinQuant๋ ๊ธฐ์กด์ ์ ์ญ ํ์ ๋ฐฉ์์ด ๊ฐ๋ ํํ๋ ฅ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ๊ณ์ธต๋ณ ์ ์ ๋ฐฉ์์ ์จ๋ผ์ธ ๊ณ์ฐ ์ค๋ฒํค๋๋ฅผ ์ค์ด๊ธฐ ์ํด ์์ฐจ ๋ถ๋ถ ๊ณต๊ฐ ํ์ ์ ํ์ฉํ ์คํ๋ผ์ธ ํ์ฑํ ํ์ ์ตํฉ์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ฅผ ํตํด ReSpinQuant๋ ๋์ ํํ๋ ฅ๊ณผ ๊ฑฐ์ ์๋ ์ถ๋ก ์ค๋ฒํค๋๋ฅผ ๋์์ ๋ฌ์ฑํ๋ฉฐ, W4A4 ๋ฐ W3A3 ์์ํ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๊ณ์ธต๋ณ ์ ์์ ๋์ ํํ๋ ฅ๊ณผ ์ ์ญ ํ์ ์ ํจ์จ์ฑ์ ๊ฒฐํฉํ ํจ๊ณผ์ ์ธ LLM ์์ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ต๋๋ค.
โข
์คํ๋ผ์ธ ํ์ฑํ ํ์ ์ตํฉ์ ํตํด ๊ธฐ์กด ๊ณ์ธต๋ณ ์์ํ ๋ฐฉ๋ฒ๋ก ์ ์จ๋ผ์ธ ๊ณ์ฐ ์ค๋ฒํค๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ์ต๋๋ค.
โข
๋ค์ํ ์์ํ ์ค์ ์์ ๊ธฐ์กด ์ต์ ๋ฐฉ๋ฒ๋ก ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ์ ์ฆํ์ฌ LLM ํจ์จ์ฑ ํฅ์์ ๊ธฐ์ฌํ ์ ์์ต๋๋ค.
โข
์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ๋ณต์ก์ฑ์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ค์ ์ ์ฉ ์ ์ถ๊ฐ์ ์ธ ์ต์ ํ๊ฐ ํ์ํ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage