Sign In

MediEval: A Unified Medical Benchmark for Patient-Contextual and Knowledge-Grounded Reasoning in LLMs

Created by
  • Haebom
Category
Empty

์ €์ž

Zhan Qu, Michael Farber

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ํ™˜์ž์˜ ๋ฌธ๋งฅ์„ ๊ณ ๋ คํ•˜๊ณ  ์ง€์‹ ๊ธฐ๋ฐ˜์— ๊ทผ๊ฑฐํ•œ LLM์˜ ์˜๋ฃŒ ๋ถ„์•ผ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ธ MediEval์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. MediEval์€ MIMIC-IV EHR ๋ฐ์ดํ„ฐ์™€ UMLS ๋“ฑ ์˜๋ฃŒ ์ง€์‹ ๊ธฐ๋ฐ˜์„ ๊ฒฐํ•ฉํ•˜์—ฌ ํ™˜์ž๋ณ„ ๋งฅ๋ฝ์—์„œ ์‚ฌ์‹ค ๋ฐ ๋ฐ˜์‚ฌ์‹ค์  ์˜๋ฃŒ ์ง„์ˆ ์„ ์ƒ์„ฑํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด LLM์˜ ์ง€์‹ ๊ทผ๊ฑฐ ๋ฐ ๋งฅ๋ฝ ์ผ๊ด€์„ฑ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ํ‰๊ฐ€ ๊ฒฐ๊ณผ, ๊ธฐ์กด LLM๋“ค์ด ์ข…์ข… ๋ฐœ์ƒํ•˜๋Š” ํ™˜๊ฐ์  ๊ทผ๊ฑฐ ์ƒ์„ฑ ๋ฐ ์ง„์‹ค ๋ฐ˜์ „๊ณผ ๊ฐ™์€ ์น˜๋ช…์ ์ธ ์˜ค๋ฅ˜ ๋ชจ๋“œ๋ฅผ ์‹๋ณ„ํ–ˆ์œผ๋ฉฐ, ์ด๋Ÿฌํ•œ ์œ„ํ—˜์„ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ˜์‚ฌ์‹ค์  ์œ„ํ—˜ ์ธ์‹ ๋ฏธ์„ธ ์กฐ์ •(CoRFu) ๊ธฐ๋ฒ•์„ ์ œ์•ˆํ•˜์—ฌ ์„ฑ๋Šฅ ๋ฐ ์•ˆ์ „์„ฑ์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM์˜ ์˜๋ฃŒ ๋ถ„์•ผ ์ ์šฉ ์‹œ ์‹ ๋ขฐ์„ฑ๊ณผ ์•ˆ์ „์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์žˆ์–ด ํ™˜์ž์˜ ๋ฌธ๋งฅ๊ณผ ์ง€์‹ ๊ธฐ๋ฐ˜์„ ๋™์‹œ์— ๊ณ ๋ คํ•˜๋Š” ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํ™˜๊ฐ์  ์ง€์› ์ƒ์„ฑ ๋ฐ ์ง„์‹ค ๋ฐ˜์ „๊ณผ ๊ฐ™์€ LLM์˜ ๊ตฌ์ฒด์ ์ธ ์‹คํŒจ ๋ชจ๋“œ๋ฅผ ์‹๋ณ„ํ•˜๊ณ , ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ CoRFu์™€ ๊ฐ™์€ ํšจ๊ณผ์ ์ธ ๋ฏธ์„ธ ์กฐ์ • ๊ธฐ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ์—์„œ ์ œ์•ˆ๋œ MediEval ๋ฒค์น˜๋งˆํฌ๋Š” ํ–ฅํ›„ ์˜๋ฃŒ LLM์˜ ๊ฐœ๋ฐœ ๋ฐ ํ‰๊ฐ€์— ์ค‘์š”ํ•œ ๊ธฐ๋ฐ˜์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
MediEval ๋ฒค์น˜๋งˆํฌ์˜ ๊ตฌ์ถ• ๋ฐ ํ‰๊ฐ€์— ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ์…‹์˜ ํŠน์ •(MIMIC-IV) ๋ฐ ์ง€์‹ ๊ธฐ๋ฐ˜(UMLS)์˜ ์ œ์•ฝ์œผ๋กœ ์ธํ•ด ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘