๋ณธ ์ฐ๊ตฌ๋ 20๊ฐ์ง ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋๋์ ์ ๋ ฌ์ ํ๊ฐํ๊ธฐ ์ํด ํฌ๋ช
ํ Chain-of-Thought (CoT) ํ๋ ์์ํฌ์ธ EvalMORAAL์ ์ ์ํ๋ค. EvalMORAAL์ ๋ ๊ฐ์ง ์ ์ ์ฐ์ ๋ฐฉ์(๋ก๊ทธ ํ๋ฅ ๋ฐ ์ง์ ํ๊ฐ)๊ณผ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ฌ์ฌ(model-as-judge peer review)๋ฅผ ๊ฒฐํฉํ์ฌ ์ธ๊ณ ๊ฐ์น ์กฐ์ฌ(WVS) ๋ฐ PEW ๊ธ๋ก๋ฒ ํ๋ ์กฐ์ฌ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ธ์ ์ ๋ ฌ๋๋ฅผ ์ธก์ ํ๋ค. ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ์ต๊ณ ์ฑ๋ฅ ๋ชจ๋ธ๋ค์ WVS ์กฐ์ฌ ์๋ต๊ณผ ๋์ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์์ผ๋, ์๊ตฌ ์ง์ญ๊ณผ ๋น์๊ตฌ ์ง์ญ ๊ฐ์ ๋๋ ทํ ๋๋์ ์ ๋ ฌ ๊ฒฉ์ฐจ๊ฐ ์กด์ฌํจ์ ๋ฐ๊ฒฌํ์๋ค.