Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

When Persuasion Overrides Truth in Multi-Agent LLM Debates: Introducing a Confidence-Weighted Persuasion Override Rate (CW-POR)

Created by
  • Haebom

저자

Mahak Agarwal, Divyam Khanna

개요

본 논문은 단일 턴, 다중 에이전트 논쟁 프레임워크를 사용하여 대규모 언어 모델(LLM)이 상반되는 주장(일부는 정확하고 일부는 잘못됨)을 판단하는 능력을 조사합니다. 하나의 LLM 기반 에이전트는 TruthfulQA에서 사실적인 답변을 제공하고, 다른 에이전트는 거짓 주장을 강력하게 옹호하며, 동일한 LLM 아키텍처가 판사 역할을 합니다. 논문에서는 판사가 잘못된 선택을 할 뿐만 아니라 그 선택에 얼마나 강하게 확신하는지를 포착하는 신뢰 가중 설득 무효율(CW-POR)을 제시합니다. 다양한 크기의 오픈소스 LLM(30억-140억 파라미터)과 에이전트의 상세 설명(30-300단어)을 실험 변수로 사용하여, 작은 모델조차도 사실적인 답변을 뒤집는 설득력 있는 주장을 만들어낼 수 있음을 보여줍니다.

시사점, 한계점

시사점: LLM이 잘못된 정보를 자신 있게 지지하는 것을 방지하기 위해 강력한 보정과 적대적 테스트의 중요성을 강조합니다. 작은 모델조차도 설득력 있는 거짓 주장을 만들 수 있음을 보여줍니다. CW-POR 지표는 LLM의 신뢰도 측정 및 오류 분석에 유용한 도구임을 시사합니다.
한계점: 실험은 단일 턴, 다중 에이전트 논쟁 프레임워크에 국한되어 있으며, 더 복잡한 상황이나 다중 턴 상호 작용에서는 LLM의 성능이 다를 수 있습니다. 사용된 데이터셋(TruthfulQA)의 한계가 결과에 영향을 미칠 수 있습니다. 다양한 유형의 거짓 정보나 설득 전략에 대한 일반화 가능성에 대한 추가 연구가 필요합니다.
👍