๋ณธ ๋
ผ๋ฌธ์ ๋จ์ผ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ฌํ์ผ๋ก ์ฌ์ฉํ๋ ๋ฐฉ์์ ์ผ๊ด์ฑ ๋ถ์กฑ ๋ฐ ํธํฅ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ค์ค ์์ด์ ํธ ํ์
๊ธฐ๋ฐ์ ํ๊ฐ ํ๋ ์์ํฌ์ธ CollabEval์ ์ ์ํฉ๋๋ค. CollabEval์ ์ด๊ธฐ ํ๊ฐ, ๋ค์ค ๋ผ์ด๋ ํ ๋ก , ์ต์ข
ํ๋จ์ ์ธ ๋จ๊ณ๋ฅผ ๊ฑฐ์ณ ์ ๋ต์ ํฉ์ ํ์ธ์ ํตํด ํจ์จ์ฑ์ ๋์
๋๋ค. ์คํ ๊ฒฐ๊ณผ, CollabEval์ ๊ธฐ์กด ๋จ์ผ LLM ํ๊ฐ ๋ฐฉ์๋ณด๋ค ์ฌ๋ฌ ์ฐจ์์์ ์ฐ์ํ๋ฉฐ, ๊ฐ๋ณ ๋ชจ๋ธ ์ฑ๋ฅ์ด ์ ํ๋ ๋๋ ๊ฒฌ๊ณ ํ ์ฑ๋ฅ์ ์ ์งํจ์ ์
์ฆํ์ต๋๋ค.