haebom
Sign In
LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation
Created by
Haebom
Category
Empty
์ ์
Zhiling Yan, Dingjie Song, Zhe Fang, Yisheng Ji, Xiang Li, Quanzheng Li, Lichao Sun
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ LLM์ ์์ ์ ์ฉ์ ์ํ ์๊ฒฉํ๊ณ ์ ๋ขฐํ ์ ์๋ ํ๊ฐ์ ํ์์ฑ์ ์ ๊ธฐํ๋ฉฐ, ๊ธฐ์กด ์๋ฃ ๋ฒค์น๋งํฌ์ ๋ฐ์ดํฐ ์ค์ผ ๋ฐ ์๊ฐ์ ๋น์ ๋ ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด LiveMedBench๋ฅผ ์ ์ํฉ๋๋ค. LiveMedBench๋ ์ค์๊ฐ ์์ ์ฌ๋ก๋ฅผ ์ฃผ๊ฐ ๋จ์๋ก ์์งํ๊ณ , ์ ๋ฌธ๊ฐ ๊ฒ์ฆ ๋ฐ ์๋ํ๋ ์ฑ์ ๊ธฐ์ค์ ํตํด LLM์ ์์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ๊ด์ ์ผ๋ก ํ๊ฐํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
์ง์์ ์ธ ์ ๋ฐ์ดํธ ๋ฐ ์ค์ผ ๋ฐฉ์ง:
LiveMedBench๋ ์ค์ ์์ ์ฌ๋ก๋ฅผ ์ง์์ ์ผ๋ก ์ ๋ฐ์ดํธํ์ฌ ์ต์ ์๋ฃ ์ง์์ ๋ฐ์ํ๊ณ , ํ๋ จ ๋ฐ์ดํฐ์์ ๋ถ๋ฆฌ๋ฅผ ์๊ฒฉํ ๊ด๋ฆฌํ์ฌ ๋ฐ์ดํฐ ์ค์ผ์ผ๋ก ์ธํ ์ฑ๋ฅ ๊ณผ๋ํ๊ฐ๋ฅผ ๋ฐฉ์งํฉ๋๋ค.
โข
์ ๋ขฐ์ฑ ๋์ ์๋ํ๋ ํ๊ฐ:
์ ๋ฌธ๊ฐ์ ์ง์์ ๊ธฐ๋ฐํ ์๋ํ๋ ์ฑ์ ๊ธฐ์ค์ ํตํด ๊ธฐ์กด์ ์ฃผ๊ด์ ์ธ LLM ํ๊ฐ ๋ฐฉ์๋ณด๋ค ๋ ์ ํํ๊ณ ์ผ๊ด๋ ํ๊ฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
โข
LLM์ ์์ ์ ์ฉ ๋ณ๋ชฉ ํ์ ๊ท๋ช :
LLM์ ์ฑ๋ฅ์ ๊ด๋ฒ์ํ๊ฒ ํ๊ฐํ ๊ฒฐ๊ณผ, ์ฌ์ค์ ์ง์๋ณด๋ค๋ ํ์๋ณ ๋งฅ๋ฝ์ ๋ง๋ ์ง์ ์ ์ฉ ๋ฅ๋ ฅ ๋ถ์กฑ์ด ์์ ์ ์ฉ์ ์ฃผ์ ๋ณ๋ชฉ ํ์์์ ๋ฐํ์ต๋๋ค.
โข
๋ฐ์ดํฐ ์ค์ผ์ ๊ด๋ฒ์ํ ์ํฅ:
38๊ฐ์ LLM ํ๊ฐ ๊ฒฐ๊ณผ, ์๋น์์ ๋ชจ๋ธ์ด ์ต์ ๋ฐ์ดํฐ์ ๋ํด ์ฑ๋ฅ ์ ํ๋ฅผ ๋ณด์ด๋ฉฐ ๋ฐ์ดํฐ ์ค์ผ์ ์ฌ๊ฐ์ฑ์ ์ ์ฆํ์ต๋๋ค.
โข
ํฅํ ๊ณผ์ :
๋ ๋ณต์กํ ์์ ์๋๋ฆฌ์ค ๋ฐ ํฌ๊ท ์งํ์ ๋ํ ํ๊ฐ๋ฅผ ๊ฐํํ๊ณ , LLM์ด ํ์๋ณ ์ ์ฝ์ ๊ณ ๋ คํ์ฌ ๋งฅ๋ฝ์ ๋ง๋ ์๋ฃ ์ง์์ ์ ์ฉํ๋ ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage