Sign In

EvoCodeBench: A Human-Performance Benchmark for Self-Evolving LLM-Driven Coding Systems

Created by
  • Haebom
Category
Empty

์ €์ž

Wentao Zhang, Jianfeng Wang, Liheng Liang, Yilei Zhao, HaiBin Wen, Zhe Zhao

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ฝ”๋”ฉ ์‹œ์Šคํ…œ์ด ์ถ”๋ก  ์ค‘์— ์Šค์Šค๋กœ ๊ฐœ์„ ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ธ EvoCodeBench๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์™€ ๋‹ฌ๋ฆฌ, EvoCodeBench๋Š” ๋‹จ์ˆœํžˆ ์ฝ”๋“œ์˜ ์ •ํ™•์„ฑ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ฌธ์ œ ํ•ด๊ฒฐ ์‹œ๊ฐ„, ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰๊ณผ ๊ฐ™์€ ํšจ์œจ์„ฑ ์ง€ํ‘œ์™€ ์ธ๊ฐ„ ํ”„๋กœ๊ทธ๋ž˜๋จธ์™€์˜ ์ƒ๋Œ€์  ์„ฑ๋Šฅ์„ ํ•จ๊ป˜ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด LLM ๊ธฐ๋ฐ˜ ์ฝ”๋”ฉ ์‹œ์Šคํ…œ์˜ ์ง„ํ™”์  ์„ฑ๋Šฅ๊ณผ ์ธ๊ฐ„ ์ˆ˜์ค€๊ณผ์˜ ๋น„๊ต๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM ๊ธฐ๋ฐ˜ ์ฝ”๋”ฉ ์‹œ์Šคํ…œ์˜ ์ž๊ธฐ ์ง„ํ™” ๋Šฅ๋ ฅ์„ ๋™์ ์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ธ๊ฐ„ ํ”„๋กœ๊ทธ๋ž˜๋จธ์™€์˜ ์ง์ ‘์ ์ธ ๋น„๊ต๋ฅผ ํ†ตํ•ด LLM ๊ธฐ๋ฐ˜ ์ฝ”๋”ฉ ์‹œ์Šคํ…œ์˜ ์‹ค์ œ์ ์ธ ๋Šฅ๋ ฅ๊ณผ ๊ฐœ์„  ์ž ์žฌ๋ ฅ์„ ๊ฐ€๋Š ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋‹ค์–‘ํ•œ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด์—์„œ์˜ ์„ฑ๋Šฅ์„ ๋ถ„์„ํ•˜์—ฌ ํฌ๋กœ์Šค-๋žญ๊ท€์ง€ ๊ฐ•๊ฑด์„ฑ๊ณผ ์žฅ๊ธฐ์ ์ธ ์•ˆ์ •์„ฑ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ˜„์žฌ ๋ฒค์น˜๋งˆํฌ๋Š” ์ฃผ๋กœ ํŠน์ • ์–ธ์–ด๋‚˜ ๋‹จ์ผ ๋ฌธ์ œ์— ๊ตญํ•œ๋˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์–ด, ๋”์šฑ ๋‹ค์–‘ํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค์™€ ์–ธ์–ด์— ๋Œ€ํ•œ ํ™•์žฅ ๋ฐ ์‹ฌ์ธต ๋ถ„์„์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘