Sign In

ResearchGym: Evaluating Language Model Agents on Real-World AI Research

Created by
  • Haebom
Category
Empty

์ €์ž

Aniketh Garikaparthi, Manasi Patwardhan, Arman Cohan

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ AI ์—ฐ๊ตฌ์˜ ์ข…๋‹จ ๊ฐ„ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ ๋ฐ ์‹คํ–‰ ํ™˜๊ฒฝ์ธ ResearchGym์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ž๋“ค์ด ๊ณต๊ฐœํ•œ ์‹ค์ œ ๋…ผ๋ฌธ์˜ ๋ฐ์ดํ„ฐ์…‹, ํ‰๊ฐ€ ๋ฐฉ์‹, ๊ธฐ๋ณธ ์ฝ”๋“œ๋ฅผ ํ™œ์šฉํ•˜์—ฌ 5๊ฐœ์˜ ์—ฐ๊ตฌ ๊ณผ์ œ๋ฅผ ๊ตฌ์ถ•ํ–ˆ์œผ๋ฉฐ, ๊ฐ ๊ณผ์ œ์—์„œ AI ์—์ด์ „ํŠธ๋Š” ์ƒˆ๋กœ์šด ๊ฐ€์„ค์„ ์„ธ์šฐ๊ณ , ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ์ธ๊ฐ„์˜ ๊ธฐ๋ณธ ์„ฑ๋Šฅ์„ ๋„˜์–ด์„œ๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. GPT-5 ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ฅผ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ, ์—์ด์ „ํŠธ๋Š” 15๋ฒˆ์˜ ํ‰๊ฐ€ ์ค‘ 1๋ฒˆ(6.7%)๋งŒ ๊ธฐ๋ณธ ์„ฑ๋Šฅ์„ 11.5% ํ–ฅ์ƒ์‹œ์ผฐ๊ณ , ํ‰๊ท  26.5%์˜ ํ•˜์œ„ ๊ณผ์ œ๋งŒ ์™„๋ฃŒํ•˜์—ฌ ๋Šฅ๋ ฅ๊ณผ ์‹ ๋ขฐ๋„ ์‚ฌ์ด์— ํฐ ๊ฒฉ์ฐจ๊ฐ€ ์žˆ์Œ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
AI ์—์ด์ „ํŠธ์˜ ์—ฐ๊ตฌ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ํ˜„์‹ค์ ์ธ ํ‰๊ฐ€: ResearchGym์€ AI ์—์ด์ „ํŠธ๊ฐ€ ์‹ค์ œ AI ์—ฐ๊ตฌ์˜ ๋ณต์žกํ•œ ๊ณผ์ •์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ๋ƒ‰์ฒ ํ•œ ํ‰๊ฐ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํ˜„์žฌ AI ์—์ด์ „ํŠธ์˜ ํ•œ๊ณ„์  ๋ช…ํ™•ํ™”: ์—์ด์ „ํŠธ๋“ค์ด ๊ฒช๋Š” ์žฅ๊ธฐ์ ์ธ ์‹คํŒจ ๋ชจ๋“œ(์กฐ๊ธ‰ํ•จ, ์‹œ๊ฐ„/์ž์› ๊ด€๋ฆฌ ๋ถ€์กฑ, ์•ฝํ•œ ๊ฐ€์„ค์— ๋Œ€ํ•œ ๊ณผ์‹ , ๋ณ‘๋ ฌ ์‹คํ—˜ ์กฐ์ • ์–ด๋ ค์›€, ์ปจํ…์ŠคํŠธ ๊ธธ์ด ์ œํ•œ ๋“ฑ)๋ฅผ ๊ตฌ์ฒด์ ์œผ๋กœ ์‹๋ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์ž์œจ ์—ฐ๊ตฌ ์—์ด์ „ํŠธ ๊ฐœ๋ฐœ์„ ์œ„ํ•œ ๋„์ „ ๊ณผ์ œ: ์ผ๋ถ€ ํ”„๋ก ํ‹ฐ์–ด ์—์ด์ „ํŠธ๊ฐ€ ์ผ์‹œ์ ์œผ๋กœ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์ด๋ฅผ ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ํ•ด๊ฒฐํ•ด์•ผ ํ•  ๋งŽ์€ ๊ณผ์ œ๊ฐ€ ๋‚จ์•„์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๐Ÿ‘