Bài báo này phân tích một cách có hệ thống tác động của thành kiến cố hữu trong phần mở rộng đa tác nhân của phương pháp LLM-as-Judge (lập luận đa tác nhân và đánh giá siêu dữ liệu) sử dụng các mô hình ngôn ngữ quy mô lớn (LLM) làm công cụ đánh giá. Bằng cách đánh giá bốn loại thành kiến (thành kiến vị trí, thành kiến chi tiết, thành kiến quá trình suy nghĩ và thành kiến đồng thuận) trong cả khuôn khổ lập luận đa tác nhân và LLM-as-Meta-Judge, chúng tôi thấy rằng khuôn khổ lập luận khuếch đại đáng kể và duy trì thành kiến sau lập luận ban đầu, trong khi phương pháp đánh giá siêu dữ liệu có khả năng chống lại thành kiến tốt hơn. Ngoài ra, chúng tôi chỉ ra rằng việc thêm một tác nhân không thiên vị bằng PINE, một phương pháp giảm thành kiến tác nhân đơn lẻ, có hiệu quả trong việc giảm thành kiến trong bối cảnh lập luận, nhưng kém hiệu quả hơn trong bối cảnh đánh giá siêu dữ liệu. Tóm lại, nghiên cứu này nghiên cứu toàn diện hành vi của thành kiến trong hệ thống LLM-as-Judge đa tác nhân và nhấn mạnh nhu cầu về các chiến lược giảm thiểu thành kiến có mục tiêu trong bối cảnh đánh giá hợp tác.