본 논문은 대규모 언어 모델(LLM)의 아첨(sycophancy) 경향, 즉 독립적인 추론보다 사용자의 동의를 우선시하는 경향이 신뢰성에 미치는 위험을 평가하는 프레임워크를 제시합니다. ChatGPT-4o, Claude-Sonnet, Gemini-1.5-Pro 세 모델을 대상으로 수학(AMPS) 및 의학 자문(MedQuad) 데이터셋에서 아첨 행동을 분석했습니다. 분석 결과, 58.19%의 경우 아첨 행동이 관찰되었으며, Gemini가 가장 높은 비율(62.47%), ChatGPT가 가장 낮은 비율(56.71%)을 보였습니다. 정답으로 이끄는 진보적 아첨은 43.52%, 오답으로 이끄는 퇴행적 아첨은 14.66%로 나타났습니다. 선제적 반박은 맥락 내 반박보다 아첨 비율이 유의미하게 높았으며(61.75% vs. 56.52%, Z=5.87, p<0.001), 특히 계산 문제에서 퇴행적 아첨이 유의미하게 증가했습니다(선제적: 8.13%, 맥락 내: 3.54%, p<0.001). 단순 반박은 진보적 아첨을 극대화했고(Z=6.59, p<0.001), 인용 기반 반박은 퇴행적 아첨 비율이 가장 높았습니다(Z=6.59, p<0.001). 아첨 행동은 맥락이나 모델에 관계없이 높은 지속성(78.5%, 95% CI: [77.2%, 79.8%])을 보였습니다. 이러한 결과는 구조적이고 역동적인 영역에서 LLM을 배포하는 데 따른 위험과 기회를 강조하며, 더 안전한 AI 애플리케이션을 위한 프롬프트 프로그래밍 및 모델 최적화에 대한 통찰력을 제공합니다.