Sign In

ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

Created by
  • Haebom
Category
Empty

์ €์ž

Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou

๐Ÿ’ก ๊ฐœ์š”

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ๊ณผํ•™ ์—ฐ๊ตฌ ์ง€์› ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์ง€๋งŒ, ํ—Œ์ •๋œ ๋ฒค์น˜๋งˆํฌ ๋ถ€์žฌ๋กœ ๊ณ ํ’ˆ์งˆ ์—ฐ๊ตฌ ๊ฐ€์„ค ๋ฐœ๊ฒฌ ๋Šฅ๋ ฅ์ด ๊ฒ€์ฆ๋˜์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด์— ๋ณธ ๋…ผ๋ฌธ์€ ์˜๊ฐ ๊ฒ€์ƒ‰, ๊ฐ€์„ค ๊ตฌ์„ฑ, ๊ฐ€์„ค ์ˆœ์œ„ ๋งค๊ธฐ๊ธฐ๋ผ๋Š” ๊ณผํ•™ ๋ฐœ๊ฒฌ ํ•˜์œ„ ์ž‘์—…์„ ํฌ๊ด„ํ•˜๋Š” ์ตœ์ดˆ์˜ ๋Œ€๊ทœ๋ชจ ๋ฒค์น˜๋งˆํฌ์ธ ResearchBench๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. 12๊ฐœ ๋ถ„์•ผ์˜ ๋…ผ๋ฌธ์—์„œ ์—ฐ๊ตฌ ์งˆ๋ฌธ, ๋ฐฐ๊ฒฝ ์กฐ์‚ฌ, ์˜๊ฐ, ๊ฐ€์„ค ๋“ฑ์˜ ํ•ต์‹ฌ ์š”์†Œ๋ฅผ ์ž๋™ ์ถ”์ถœํ•˜๊ณ  2024๋…„ ์ดํ›„ ๋ฐœํ–‰๋œ ์ตœ์‹  ๋…ผ๋ฌธ์— ์ง‘์ค‘ํ•˜์—ฌ ๋ฐ์ดํ„ฐ ์˜ค์—ผ์„ ๋ฐฉ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM์€ ํŠนํžˆ ์•„์›ƒ-์˜ค๋ธŒ-๋ถ„ํฌ(out-of-distribution) ์ž‘์—…์ธ ์˜๊ฐ ๊ฒ€์ƒ‰์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ, ์ƒˆ๋กœ์šด ์ง€์‹ ์—ฐ๊ด€์„ฑ์„ ๋ฐœ๊ตดํ•  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ๋ ฅ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ResearchBench๋Š” LLM์˜ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ๋Šฅ๋ ฅ์„ ๊ฐ๊ด€์ ์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ์ตœ์ดˆ์˜ ๋Œ€๊ทœ๋ชจ ๋ฒค์น˜๋งˆํฌ๋กœ์„œ, ํ–ฅํ›„ LLM ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์„ค์ •์— ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๊ฐ€์„ค ๊ตฌ์„ฑ ๋ฐ ์ˆœ์œ„ ๋งค๊ธฐ๊ธฐ ์ž‘์—…์— ๋Œ€ํ•œ LLM์˜ ์„ฑ๋Šฅ์€ ์•„์ง ์ดˆ๊ธฐ ๋‹จ๊ณ„์ด๋ฉฐ, ์ด๋Ÿฌํ•œ ์ž‘์—…์—์„œ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋ฐ ์ž๋™ํ™”๊ฐ€ ํ–ฅํ›„ ์—ฐ๊ตฌ ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘