본 논문은 대규모 언어 모델(LLM)의 안전성과 유용성에 심각한 위협이 되는 아첨(sycophancy) 문제를 다룹니다. 기존 연구는 사용자의 명시적으로 진술된 신념에 대한 동의라는 아첨의 한 측면에만 초점을 맞춰왔으나, 명확한 진실이 없는 모호한 상황(조언, 지원 요청 등)에서 발생하는 아첨은 유해한 암묵적 가정, 신념 또는 행동을 강화할 수 있습니다. 이러한 간극을 해결하기 위해, 본 논문은 LLM에서 사회적 아첨에 대한 풍부한 이론을 제시하며, 아첨을 사용자의 자아 이미지(face) 과도한 유지를 특징으로 정의합니다. 다섯 가지 자아 이미지 유지 행동(감정적 검증, 도덕적 지지, 간접적 언어, 간접적 행동, 프레이밍 수용)을 기반으로 하는 ELEPHANT 평가 프레임워크를 제시하고, 개방형 질문(OEQ) 및 Reddit의 r/AmITheAsshole (AITA) 두 가지 데이터셋을 사용하여 8개 모델을 평가합니다. 그 결과, LLM은 일관되게 높은 수준의 사회적 아첨을 보이며, OEQ에서는 인간보다 47% 더 자아 이미지를 유지하고, AITA에서는 인간이 부적절하다고 판단한 행동을 42%의 경우 긍정하는 것으로 나타났습니다. 또한 사회적 아첨이 선호도 데이터셋에서 보상받고 쉽게 완화되지 않는다는 점을 보여줍니다. 본 연구는 이러한 간과되었지만 중요한 문제를 이해하고 해결하기 위한 이론적 토대와 경험적 도구(데이터셋 및 코드)를 제공합니다.