본 연구는 대규모 언어 모델(LLM)에서 권위와 설득을 통해 사용자가 받는 사회적 압력 하에서 발생하는 정확도 저하를 측정하기 위한 견고성 중심 프레임워크인 PARROT(Persuasion and Agreement Robustness Rating of Output Truth)을 제시한다. PARROT는 (i) 이중 맹검 평가를 사용하여 동일 질문의 중립 버전과 권위적으로 거짓된 버전을 비교하여 인과 효과를 분리하고, (ii) 로그 가능성 기반 보정 추적을 사용하여 정답 및 부과된 거짓 응답으로의 신뢰도 변화를 정량화하며, (iii) 8가지 상태의 행동 분류법을 사용하여 실패 모드(예: 견고한 정답, 아첨적 동의, 강화된 오류, 완고한 오류, 자기 수정 등)를 체계적으로 분류한다. 13개 도메인 및 도메인별 권위 템플릿에 걸쳐 1,302개의 MMLU 스타일 객관식 질문을 사용하여 22개의 모델을 평가했다.