haebom
Sign In
An Empirical Study and Theoretical Explanation on Task-Level Model-Merging Collapse
Created by
Haebom
Category
Empty
์ ์
Yuan Cao, Dezhi Ran, Yuzhe Guo, Mengzhou Wu, Simin Chen, Linyi Li, Wei Yang, Tao Xie
๐ก ๊ฐ์
๋ณธ ์ฐ๊ตฌ๋ ๋ ๋ฆฝ์ ์ผ๋ก ํ์ธํ๋๋ LLM๋ค์ ๊ฒฐํฉํ๋ ๋ชจ๋ธ ๋ณํฉ(model merging) ๊ณผ์ ์์ ๋ฐ์ํ๋ ์น๋ช ์ ์ธ ์ฑ๋ฅ ์ ํ ํ์์ธ '๋ณํฉ ๋ถ๊ดด(merging collapse)'๋ฅผ ํ๊ตฌํฉ๋๋ค. ์ ์๋ค์ ํนํ ์ฌ๋ฌ ์์ ์ ํนํ๋ ๋ชจ๋ธ๋ค์ ๋ณํฉํ ๋ ๋ฐ์ํ๋ '์์ ์์ค ๋ณํฉ ๋ถ๊ดด'๋ฅผ ์๋ณํ๊ณ , ์ด๋ฅผ ๊ด๋ฒ์ํ ์คํ๊ณผ ํต๊ณ ๋ถ์์ ํตํด ๊ท๋ช ํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์์ ๊ฐ ํํ(representation)์ ๋นํธํ์ฑ์ด ๋ณํฉ ๋ถ๊ดด์ ์ฃผ์ ์์ธ์์ ๋ฐํ๊ณ , ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ์์์ ์ถฉ๋ ์งํ๋ ๋ฎ์ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์์ ์ ์ํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
์์ ์์ค์ ๋ชจ๋ธ ๋ณํฉ ๋ถ๊ดด๋ ๋ณํฉ ๋ฐฉ๋ฒ๋ก ์ ๋ ๋ฆฝ์ ์ผ๋ก ๋ฐ์ํ๋ ํ์์ด๋ฉฐ, ์ด๋ ์์ ๊ฐ ํํ์ ๋นํธํ์ฑ์ ๊ธฐ์ธํจ์ ์ค์ฆ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.
โข
๊ธฐ์กด ๋ชจ๋ธ ๋ณํฉ ์ฐ๊ตฌ์์ ์ค์ํ๊ฒ ์ฌ๊ฒผ๋ ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ์์์ ์ถฉ๋ ์งํ๋ ๋ณํฉ ๋ถ๊ดด์์ ์๊ด๊ด๊ณ๊ฐ ๋ฎ๋ค๋ ์ ์ ๋ฐ๊ฒฌํ์ฌ, ์๋ก์ด ํ๊ฐ ๊ธฐ์ค์ ํ์์ฑ์ ์์ฌํฉ๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ๋ ์ฐจ์ ์์กด์ ์ธ ๊ฒฝ๊ณ๊ฐ์ ๊ฐ๋ Rate-Distortion ์ด๋ก ์ ํตํด ์์ ๋ณํฉ ๊ฐ๋ฅ์ฑ์ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ฅผ ์ด๋ก ์ ์ผ๋ก ์ค๋ช ํ๋ฉฐ, ํฅํ ๋ชจ๋ธ ๋ณํฉ ์ฐ๊ตฌ์ ๋ฐฉํฅ์ฑ์ ์ ์ํฉ๋๋ค.
โข
Rate-Distortion ์ด๋ก ์ ์ ์ฉํ ์ด๋ก ์ ์ค๋ช ์ด ์์ง์ ์ด๊ธฐ ๋จ๊ณ์ด๋ฉฐ, ์ค์ ๋ค์ํ ๋ชจ๋ธ ์ํคํ ์ฒ ๋ฐ ์์ ํน์ฑ์ ๋ํ ์ถ๊ฐ์ ์ธ ๊ฒ์ฆ๊ณผ ์ผ๋ฐํ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage