haebom
Sign In
Fine-Grained Benchmark Generation for Comprehensive Evaluation of Foundation Models
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Mohammed Saidul Islam, Negin Baghbanzadeh, Farnaz Kohankhaki, Afshin Cheraghi, Ali Kore, Shayaan Mehdi, Elham Dolatabadi, Arash Afkanpour
๐ก ๊ฐ์
๊ธฐ์กด ํ๊ฐ ๋ฒค์น๋งํฌ๊ฐ ๊ฐ์ง ์ข ํฉ์ ์ธ ์ปค๋ฒ๋ฆฌ์ง ๋ฐ ๋ฉํ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ณธ ์ฐ๊ตฌ๋ ์ฐธ์กฐ ์๋ฃ(๊ต๊ณผ์ ๋ฑ)์ ๊ธฐ๋ฐํ ํ๊ฐ ๋ฌธ์ ์๋ ์์ฑ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ด ํ๋ ์์ํฌ๋ ๋ค์ค ์์ด์ ํธ ๊ตฌ์กฐ์ ์๋ฃจ์ ๊ทธ๋ํ ๊ธฐ๋ฐ ์ ๋ต์ ํ์ฉํ์ฌ ๊ด๋ฒ์ํ๊ณ ๋ฉํ๋ฐ์ดํฐ๊ฐ ํ๋ถํ๋ฉฐ ์ค์ผ์ ๊ฐ๊ฑดํ ๋ฒค์น๋งํฌ๋ฅผ ์์ฑํ๋ฉฐ, ์ด๋ฅผ ํตํด MMLU, GSM8K์ ๊ฐ์ ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ณด๋ค ๋ฎ์ ์ค๋ต๋ฅ ์ ๋ฌ์ฑํ์ต๋๋ค. ์์ฑ๋ ๋ฒค์น๋งํฌ๋ก 12๊ฐ์ ๋ชจ๋ธ์ ํ๊ฐํ ๊ฒฐ๊ณผ, ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ก๋ ํ์ ํ๊ธฐ ์ด๋ ค์ ๋ ๋ชจ๋ธ ๊ฐ์ ๋ฏธ๋ฌํ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ํฌ์ฐฉํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๊ธฐ์กด ๋ฒค์น๋งํฌ์ ํ๊ณ ๊ทน๋ณต:
์ฐธ์กฐ ์๋ฃ ๊ธฐ๋ฐ ์๋ ์์ฑ ํ๋ ์์ํฌ๋ฅผ ํตํด ์ข ํฉ์ ์ธ ์ปค๋ฒ๋ฆฌ์ง์ ํ๋ถํ ๋ฉํ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ถ ๋ฒค์น๋งํฌ ์์ฑ์ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
โข
์ ๋ขฐ๋ ๋์ ํ๊ฐ:
๋ค์ค ์์ด์ ํธ ๊ตฌ์กฐ์ ์๋ฃจ์ ๊ทธ๋ํ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ผ๋ก ์์ฑ๋ ๋ฒค์น๋งํฌ๋ ๊ธฐ์กด ๋ฒค์น๋งํฌ ๋๋น ๋ฎ์ ์ค๋ต๋ฅ ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋ชจ๋ธ ์ฑ๋ฅ์ ๋์ฑ ์ ๋ขฐ์ฑ ์๊ฒ ํ๊ฐํ ์ ์์ต๋๋ค.
โข
๋ชจ๋ธ ๊ฐ ๋ฏธ์ธ ์ฑ๋ฅ ์ฐจ์ด ๊ท๋ช :
๋ณธ ํ๋ ์์ํฌ๋ก ์์ฑ๋ ๋ฒค์น๋งํฌ๋ ๊ธฐ์กด ๋ฒค์น๋งํฌ๊ฐ ๋์น๋ ๋ชจ๋ธ ๊ฐ์ ์ธ๋ฐํ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋๋ฌ๋ด์ด, ๋ชจ๋ธ ๋ฐ์ ์ ๋ํ ์๋ก์ด ํต์ฐฐ์ ์ ๊ณตํฉ๋๋ค.
โข
ํ๊ณ์ ๋๋ ํฅํ ๊ณผ์ :
ํ์ฌ ์์ฑ๋ ๋ฒค์น๋งํฌ๋ ๋จธ์ ๋ฌ๋, ๊ธฐ์ ์ฌ๋ฌด, ๊ฐ์ธ ์ฌ๋ฌด ๋ถ์ผ์ ๊ตญํ๋์ด ์์ผ๋ฉฐ, ํฅํ ๋ ๋ค์ํ ๋ถ์ผ๋ก์ ํ์ฅ ๋ฐ ํ๋ ์์ํฌ ์์ฒด์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage