haebom
Sign In
CentaurEval: Benchmarking Human-in-the-Loop Value in Agentic Coding
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Hanjun Luo, Chiming Ni, Jiaheng Wen, Zhimu Huang, Yiran Wang, Bingduo Liao, Sylvia Chung, Yingbin Jin, Xinfeng Li, Wenyuan Xu, XiaoFeng Wang, Hanan Salam
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์ฝ๋ฉ ์์ด์ ํธ์ ๋ฑ์ฅ์ผ๋ก ๋ณํํ๋ ๊ฐ๋ฐ ํจ๋ฌ๋ค์์ ํ๊ฐํ๊ธฐ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ์ธ CentaurEval์ ์ ์ํฉ๋๋ค. CentaurEval์ ์ธ๊ฐ์ ์ถ๋ก ๊ณผ AI์ ํจ์จ์ฑ์ ๊ฒฐํฉํด์ผ๋ง ํด๊ฒฐ ๊ฐ๋ฅํ "ํ์ ํ์" ๋ฌธ์ ํ ํ๋ฆฟ์ ํตํด ์ธ๊ฐ-AI ํ์ ์ ๊ฐ์น๋ฅผ ์ธก์ ํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, ์ธ๊ฐ ๋๋ AI ๋จ๋ ์ผ๋ก๋ ๋ฎ์ ์ฑ๊ณต๋ฅ ์ ๋ณด์์ง๋ง, ์ธ๊ฐ-AI ํ์ ์ ์ฑ๊ณต๋ฅ ์ ํฌ๊ฒ ํฅ์์์ผฐ์ผ๋ฉฐ, ์ด๋ ์ ํต์ ์ธ ์ธ๊ฐ-๋๊ตฌ ๊ด๊ณ๋ฅผ ๋์ด์ ์๋ก์ด ํ์ ํํธ๋์ญ์ ๋ฑ์ฅ์ ์์ฌํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
LLM ๊ธฐ๋ฐ ์ฝ๋ฉ ์์ด์ ํธ์ ๋ฑ์ฅ์ ๋ฐ๋ผ ์ธ๊ฐ-AI ํ์ ์ ๊ฐ์น๋ฅผ ์ธก์ ํ ์ ์๋ ์๋ก์ด ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ํ์์ฑ์ ์ ์ํฉ๋๋ค.
โข
์ธ๊ฐ๊ณผ AI๊ฐ ์๋ก์ ๊ฐ์ ์ ํ์ฉํ์ฌ ์๋์ง๋ฅผ ์ฐฝ์ถํ๋ "๊ณต๋ ์ถ๋ก " ํํธ๋์ญ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
โข
๋ณธ ์ฐ๊ตฌ์์ ์ ์๋ ๋ฒค์น๋งํฌ์ ํ๊ฐ ๋ฐฉ๋ฒ์ ํฅํ LLM ๊ธฐ๋ฐ ์ฝ๋ฉ ์์ด์ ํธ์ ๊ฐ๋ฐ ๋ฐ ํ๊ฐ์ ์ค์ํ ์ง์นจ์ด ๋ ์ ์์ต๋๋ค.
โข
450๊ฐ์ ๋์ ํ์คํฌ ์์ฑ์ ์ ํ์ ์ด๋ฉฐ, ์ค์ ๊ฐ๋ฐ ํ๊ฒฝ์์ ๋ฐ์ํ๋ ๋์ฑ ๋ค์ํ๊ณ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํฌ๊ดํ๊ธฐ ์ํ ์ถ๊ฐ์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage