haebom
Sign In
Auditing Multi-Agent LLM Reasoning Trees Outperforms Majority Vote and LLM-as-Judge
Created by
Haebom
Category
Empty
์ ์
Wei Yang, Shixuan Li, Heng Ping, Peiyu Zhang, Paul Bogdan, Jesse Thomason
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๋ค์ค ์์ด์ ํธ ์์คํ (MAS)์์ LLM์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ์ฅํ๋ ๋ฐ ์์ด ๊ธฐ์กด์ ๋ค์๊ฒฐ ํฌํ ๋ฐฉ์์ด ๊ฐ์ง ํ๊ณ๋ฅผ ์ง์ ํ๋ฉฐ, ์์ด์ ํธ๋ค์ ์ถ๋ก ๊ณผ์ ์ ๋ช ์์ ์ผ๋ก ํํํ๋ '์ถ๋ก ํธ๋ฆฌ'๋ฅผ ํ์ฉํ ์๋ก์ด ๊ฐ์ฌ ๋ฐฉ๋ฒ๋ก ์ธ 'AgentAuditor'๋ฅผ ์ ์ํฉ๋๋ค. AgentAuditor๋ ์ถ๋ก ํธ๋ฆฌ์ ๋ถ๊ธฐ์ ์ ์ค์ฌ์ผ๋ก ๊ตญ์์ ์ธ ๊ฒ์ฆ์ ์ํํ์ฌ ๊ธ๋ก๋ฒ ํ๋จ์ ํจ์จ์ ์ผ๋ก ์ํํ๋ฉฐ, ๋ค์๊ฒฐ ์คํจ ์ฌ๋ก๋ฅผ ํ์ตํ์ฌ ์ฆ๊ฑฐ ๊ธฐ๋ฐ์ ์์ ์๊ฒฌ์ ์ ํธํ๋ ACPO ๊ธฐ๋ฒ์ ํจ๊ป ์ ์ํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
AgentAuditor๋ ๋ค์ค ์์ด์ ํธ LLM ์์คํ ์์ ์ถ๋ก ์ ์ ๋ขฐ์ฑ๊ณผ ์ ํ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์ต๋๋ค.
โข
๊ธฐ์กด์ ๋ค์๊ฒฐ ๋ฐฉ์์ด๋ LLM-as-Judge ๋ฐฉ์๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ํนํ ์์ด์ ํธ ๊ฐ์ ์๋ชป๋ ํฉ์(confabulation consensus) ๋ฌธ์ ์ ๊ฐ๊ฑดํฉ๋๋ค.
โข
์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ๋ค์ํ MAS ์ค์ ์ ์ ์ฉ ๊ฐ๋ฅํ๋ฉฐ, ์ค์ ์ ์ฉ ์ 5%p ์ด์์ ์ ํ๋ ํฅ์์ ๊ฐ์ ธ์ฌ ์ ์์ต๋๋ค.
โข
์ถ๋ก ํธ๋ฆฌ์ ํํ ๋ฐ ํ์ ๊ณผ์ ์ด ๋ณต์กํด์ง ์ ์์ด, ๋ ๋๊ท๋ชจ์ ๋ณต์กํ ์ถ๋ก ๊ณผ์ ์ ๋ํ ํจ์จ์ ์ธ ์ฒ๋ฆฌ ๋ฐฉ์์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage