haebom
Sign In
Probing Routing-Conditional Calibration in Attention-Residual Transformers
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Wenhao Liang, Lin Yue, Wei Emma Zhang, Miao Xu, Mingyu Guo, Olaf Maennel, Weitong Chen
๐ก ๊ฐ์
๋ณธ ์ฐ๊ตฌ๋ ๋ผ์ฐํ ์ ๋ณด๊ฐ ํตํฉ๋ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ์ฌํ ๋ณด์ (post-hoc calibration)์์ ๋ผ์ฐํ ํ์ ์ด ๋จ์ํ ์ ๋ขฐ๋(confidence)๋ง ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ์์ ์ ์ธ ์ฆ๊ฑฐ๋ฅผ ์ ๊ณตํ๋์ง๋ฅผ ํ๊ตฌํฉ๋๋ค. Attention-Residual(AR) ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ๋์์ผ๋ก ๋ผ์ฐํ ์ํ๋ณ๋ก ์์ ๋ฅผ ๋ถ๋ฅํ๊ณ , ์ ๋ขฐ๋์ ๋ผ์ฐํ ์ ๋ณด(๋ผ์ฐํ ๊น์ด ๋ถ์ฐ)๋ฅผ ๊ฒฐํฉํ 2์ฐจ์ Nadaraya-Watson ๋ณด์ ๊ธฐ๋ฒ์ ํ๊ฐํ์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ๋จ์ํ ๋ผ์ฐํ ์์ฝ ์ ๋ณด๋ ์์ ์ ์ธ ๋ผ์ฐํ ์กฐ๊ฑด๋ถ ๋ณด์ ๋ถ๋ ์ฆ๊ฑฐ๋ฅผ ์ ๊ณตํ์ง ๋ชปํ๋ฉฐ, ์ ์๋ AR-CondCal ๊ธฐ๋ฒ๋ ๊ธฐ์กด ์ ๋ขฐ๋ ๊ธฐ๋ฐ ๊ธฐ๋ฒ์ด๋ ์์ธก ์ํธ๋กํผ ์ ์ด๋ณด๋ค ๊ฐ์ ๋์ง ์์์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๋ผ์ฐํ ์ฆ๊ฐ ์ํคํ ์ฒ์์ ๋ผ์ฐํ ํ์ ์ด ์ฌํ ๋ณด์ ์ฑ๋ฅ ํฅ์์ ํญ์ ์ ์๋ฏธํ ๊ธฐ์ฌ๋ฅผ ํ๋ ๊ฒ์ ์๋๋ฉฐ, ์ ๋ขฐ๋ ์ ๋ณด๋ง์ผ๋ก๋ ์ ์ฌํ ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์ต๋๋ค.
โข
๋ผ์ฐํ ๊ธฐ๋ฐ ๋ณด์ ๊ธฐ๋ฒ์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ ๋๋ ์ ๋ขฐ๋, ๋์ญํญ, ์ฉ๋, ์์ด ๊ต์ฐจ ๊ฒ์ฆ ๋ฑ ์ผ๋ฐ์ ์ธ ํผ๋ ์์ธ์ ์ฒด๊ณ์ ์ผ๋ก ํต์ ํ๋ ๊ฒ์ด ํ์์ ์ ๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ๋ AR ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ๊ตญํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ๋ฉฐ, ๋ค๋ฅธ ๋ผ์ฐํ ๋ฉ์ปค๋์ฆ์ด๋ ์ํคํ ์ฒ์์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage