본 논문은 대규모 언어 모델(LLM)을 평가자로 활용하는 LLM-as-Judge 방식의 다중 에이전트 확장(다중 에이전트 논쟁 및 메타 평가)에서 내재된 편향의 영향을 체계적으로 분석한 연구입니다. 네 가지 유형의 편향(위치 편향, 상세도 편향, 사고 과정 편향, 동조 편향)을 다중 에이전트 논쟁 및 LLM-as-Meta-Judge 두 가지 프레임워크에서 평가하여, 논쟁 프레임워크는 초기 논쟁 이후 편향이 크게 증폭되고 지속되는 반면, 메타 평가 접근 방식은 편향에 대한 저항력이 더 크다는 것을 발견했습니다. 또한, 단일 에이전트 편향 감소 방법인 PINE을 활용하여 편향 없는 에이전트를 추가했을 때, 논쟁 설정에서는 편향 감소 효과가 있었지만 메타 평가 설정에서는 효과가 적었다는 결과를 제시합니다. 결론적으로, 본 연구는 다중 에이전트 LLM-as-Judge 시스템에서 편향의 행동을 포괄적으로 연구하고 협업 평가 설정에서 표적화된 편향 완화 전략의 필요성을 강조합니다.