Sign In

LEAP: Trajectory-Level Evaluation of LLMs in Iterative Scientific Design

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Marilyn Zhang, Tianfeng Chen, Fabian Barzuna, Ankita Rathod, Mark E. Whiting

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ LLM์ด ๊ณผํ•™์  ์„ค๊ณ„๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ๋•Œ ํ•™์Šต ํšจ์œจ์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ธฐ์กด ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜๋ฉฐ, ์ตœ์ข… ๊ฒฐ๊ณผ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ํ•™์Šต ๊ถค์ (trajectory)์„ ์ธก์ •ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. LEAPBench๋ผ๋Š” 55๊ฐœ ํƒœ์Šคํฌ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด AUC ๊ธฐ๋ฐ˜ ๊ถค์  ๋ฉ”ํŠธ๋ฆญ, ๋ฒ ์ด์ง€์•ˆ ์ตœ์ ํ™” ๊ธฐ์ค€ ๋ชจ๋ธ, ๊ทธ๋ฆฌ๊ณ  ๋ฌธํ—Œ ๊ธฐ๋ฐ˜ ๊ฐ์‚ฌ๋ฅผ ๋„์ž…ํ•˜์—ฌ LLM์˜ ํ•™์Šต ํšจ์œจ์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ณ , ๊ธฐ์กด ๊ฒฐ๊ณผ ์ค‘์‹ฌ ํ‰๊ฐ€ ๋ฐฉ์‹์œผ๋กœ๋Š” ๋†“์น  ์ˆ˜ ์žˆ์—ˆ๋˜ ํšจ์œจ์„ฑ ๊ฐœ์„ ์ ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM์˜ ๊ณผํ•™์  ์„ค๊ณ„์—์„œ์˜ ํ•™์Šต ํšจ์œจ์„ฑ์„ ํ‰๊ฐ€ํ•  ๋•Œ, ์ตœ์ข… ๊ฒฐ๊ณผ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ํ•™์Šต ๊ถค์ ์„ ํ•จ๊ป˜ ๊ณ ๋ คํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค.
โ€ข
๊ธฐ์กด์˜ ๊ฒฐ๊ณผ ์ค‘์‹ฌ ํ‰๊ฐ€ ๋ฐฉ์‹์€ LLM์˜ ์ง„์ •ํ•œ ํ•™์Šต ํšจ์œจ์„ฑ์„ ๊ณผ์†Œํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ถค์  ์ค‘์‹ฌ ํ‰๊ฐ€๋Š” ๊ธฐ์กด์— ๊ฐ„๊ณผ๋˜์—ˆ๋˜ ํšจ์œจ์„ฑ ๊ฐœ์„ ์ ์„ ๋“œ๋Ÿฌ๋‚ธ๋‹ค.
โ€ข
LLM์€ ๊ณ ์ „์ ์ธ ๋ฒ ์ด์ง€์•ˆ ์ตœ์ ํ™” ๊ธฐ์ค€ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜์ง€ ๋ชปํ•˜๋ฉฐ, ํŠนํžˆ ๋ฌธํ—Œ ๊ธฐ๋ฐ˜์˜ ๋„๋ฉ”์ธ ์ •๋ณด๊ฐ€ ์ค‘์š”ํ•œ ํƒœ์Šคํฌ์—์„œ๋Š” ๋„๋ฉ”์ธ ๋น„์ธ์ง€์  ํ”„๋กฌํ”„ํŒ…์ด ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ผ ์ˆ˜ ์žˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๊ถค์  ๋ฉ”ํŠธ๋ฆญ์€ ํ•™์Šต ํšจ์œจ์„ฑ ํ‰๊ฐ€๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์ด๋ฅผ ๋ณด์ƒ ํ•จ์ˆ˜๋กœ ํ™œ์šฉํ•œ ์˜คํ”„๋ผ์ธ ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด LLM์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐ์—๋„ ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋‹ค.
โ€ข
ํ•œ๊ณ„์ ์œผ๋กœ๋Š”, ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ ๋ฐ ๋ณต์žก์„ฑ์„ ๊ฐ€์ง„ ์‹ค์ œ ์‹คํ—˜ ํ™˜๊ฒฝ์—์„œ์˜ LLM ์„ฑ๋Šฅ ๊ฒ€์ฆ์ด ๋” ํ•„์š”ํ•˜๋ฉฐ, ๋„๋ฉ”์ธ ์ •๋ณด์™€ LLM์˜ ์ƒํ˜ธ์ž‘์šฉ ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ๋Œ€ํ•œ ์‹ฌ์ธต์ ์ธ ๋ถ„์„์ด ์š”๊ตฌ๋œ๋‹ค.
๐Ÿ‘