본 논문은 대규모 언어 모델(LLM)의 신뢰도 조정 능력을 동적인 논쟁 환경에서 평가한 연구입니다. 기존 연구들이 정적인 사실 기반 질의응답 과제에서 LLM의 신뢰도 교정을 측정한 것과 달리, 본 연구는 다중 턴 형식과 제로섬 구조를 결합하여 현실적인 논쟁 상황을 구현했습니다. 10개의 최첨단 LLM을 대상으로 60개의 3라운드 정책 논쟁을 진행하여 각 라운드 이후 승리 확률에 대한 모델의 신뢰도(0-100)를 측정했습니다. 그 결과, LLM이 체계적인 과신, 신뢰도 증가, 상호 과대평가, 지속적인 자기 논쟁 편향, 그리고 사적 추론과 공개적 신뢰도 평가 간의 불일치 등 다섯 가지 문제점을 보이는 것을 발견했습니다. 이는 동적인 다중 턴 과제에서 LLM이 자신의 신뢰도를 정확하게 평가하거나 갱신하는 능력이 부족함을 시사하며, 보조 역할이나 작용적 설정에서 LLM 출력물을 신중한 검토 없이 배포하는 것에 대한 우려를 제기합니다.