haebom
Sign In
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition
Created by
Haebom
Category
Empty
์ ์
Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
๐ก ๊ฐ์
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ๊ณผํ ์ฐ๊ตฌ ์ง์ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, ํ์ ๋ ๋ฒค์น๋งํฌ ๋ถ์ฌ๋ก ๊ณ ํ์ง ์ฐ๊ตฌ ๊ฐ์ค ๋ฐ๊ฒฌ ๋ฅ๋ ฅ์ด ๊ฒ์ฆ๋์ง ๋ชปํ์ต๋๋ค. ์ด์ ๋ณธ ๋ ผ๋ฌธ์ ์๊ฐ ๊ฒ์, ๊ฐ์ค ๊ตฌ์ฑ, ๊ฐ์ค ์์ ๋งค๊ธฐ๊ธฐ๋ผ๋ ๊ณผํ ๋ฐ๊ฒฌ ํ์ ์์ ์ ํฌ๊ดํ๋ ์ต์ด์ ๋๊ท๋ชจ ๋ฒค์น๋งํฌ์ธ ResearchBench๋ฅผ ์ ์ํฉ๋๋ค. 12๊ฐ ๋ถ์ผ์ ๋ ผ๋ฌธ์์ ์ฐ๊ตฌ ์ง๋ฌธ, ๋ฐฐ๊ฒฝ ์กฐ์ฌ, ์๊ฐ, ๊ฐ์ค ๋ฑ์ ํต์ฌ ์์๋ฅผ ์๋ ์ถ์ถํ๊ณ 2024๋ ์ดํ ๋ฐํ๋ ์ต์ ๋ ผ๋ฌธ์ ์ง์คํ์ฌ ๋ฐ์ดํฐ ์ค์ผ์ ๋ฐฉ์งํ์ต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
LLM์ ํนํ ์์-์ค๋ธ-๋ถํฌ(out-of-distribution) ์์ ์ธ ์๊ฐ ๊ฒ์์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ, ์๋ก์ด ์ง์ ์ฐ๊ด์ฑ์ ๋ฐ๊ตดํ ์ ์๋ ์ ์ฌ๋ ฅ์ ์์ฌํฉ๋๋ค.
โข
ResearchBench๋ LLM์ ๊ณผํ์ ๋ฐ๊ฒฌ ๋ฅ๋ ฅ์ ๊ฐ๊ด์ ์ผ๋ก ํ๊ฐํ ์ ์๋ ์ต์ด์ ๋๊ท๋ชจ ๋ฒค์น๋งํฌ๋ก์, ํฅํ LLM ์ฐ๊ตฌ ๋ฐฉํฅ ์ค์ ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํฉ๋๋ค.
โข
๊ฐ์ค ๊ตฌ์ฑ ๋ฐ ์์ ๋งค๊ธฐ๊ธฐ ์์ ์ ๋ํ LLM์ ์ฑ๋ฅ์ ์์ง ์ด๊ธฐ ๋จ๊ณ์ด๋ฉฐ, ์ด๋ฌํ ์์ ์์์ ์ฑ๋ฅ ํฅ์ ๋ฐ ์๋ํ๊ฐ ํฅํ ์ฐ๊ตฌ ๊ณผ์ ๋ก ๋จ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage