haebom
Sign In
EvoCodeBench: A Human-Performance Benchmark for Self-Evolving LLM-Driven Coding Systems
Created by
Haebom
Category
Empty
์ ์
Wentao Zhang, Jianfeng Wang, Liheng Liang, Yilei Zhao, HaiBin Wen, Zhe Zhao
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์ฝ๋ฉ ์์คํ ์ด ์ถ๋ก ์ค์ ์ค์ค๋ก ๊ฐ์ ํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ์ธ EvoCodeBench๋ฅผ ์ ์ํฉ๋๋ค. ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ๋ฌ๋ฆฌ, EvoCodeBench๋ ๋จ์ํ ์ฝ๋์ ์ ํ์ฑ๋ฟ๋ง ์๋๋ผ ๋ฌธ์ ํด๊ฒฐ ์๊ฐ, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ๊ฐ์ ํจ์จ์ฑ ์งํ์ ์ธ๊ฐ ํ๋ก๊ทธ๋๋จธ์์ ์๋์ ์ฑ๋ฅ์ ํจ๊ป ์ธก์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด LLM ๊ธฐ๋ฐ ์ฝ๋ฉ ์์คํ ์ ์งํ์ ์ฑ๋ฅ๊ณผ ์ธ๊ฐ ์์ค๊ณผ์ ๋น๊ต๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
LLM ๊ธฐ๋ฐ ์ฝ๋ฉ ์์คํ ์ ์๊ธฐ ์งํ ๋ฅ๋ ฅ์ ๋์ ์ผ๋ก ํ๊ฐํ ์ ์๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
โข
์ธ๊ฐ ํ๋ก๊ทธ๋๋จธ์์ ์ง์ ์ ์ธ ๋น๊ต๋ฅผ ํตํด LLM ๊ธฐ๋ฐ ์ฝ๋ฉ ์์คํ ์ ์ค์ ์ ์ธ ๋ฅ๋ ฅ๊ณผ ๊ฐ์ ์ ์ฌ๋ ฅ์ ๊ฐ๋ ํ ์ ์์ต๋๋ค.
โข
๋ค์ํ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด์์์ ์ฑ๋ฅ์ ๋ถ์ํ์ฌ ํฌ๋ก์ค-๋ญ๊ท์ง ๊ฐ๊ฑด์ฑ๊ณผ ์ฅ๊ธฐ์ ์ธ ์์ ์ฑ์ ํ๊ฐํ ์ ์์ต๋๋ค.
โข
ํ์ฌ ๋ฒค์น๋งํฌ๋ ์ฃผ๋ก ํน์ ์ธ์ด๋ ๋จ์ผ ๋ฌธ์ ์ ๊ตญํ๋๋ ๊ฒฝํฅ์ด ์์ด, ๋์ฑ ๋ค์ํ ์๋๋ฆฌ์ค์ ์ธ์ด์ ๋ํ ํ์ฅ ๋ฐ ์ฌ์ธต ๋ถ์์ด ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage