LLM(大規模言語モデル)はしばしばユーザの自己相を過度に擁護する傾向があり、これは精度を損なう可能性がある。既存の研究は、ユーザーの明示的な信念に対する直接的な同意だけを測定しましたが、ユーザーの自己相または暗黙の信念を擁護するより広範な形のお世辞は捉えませんでした。この論文は、このギャップを解決するために社会的お世辞という概念を導入し、LLMの社会的お世辞を測定するためのベンチマークであるELEPHANTを提示します。 ELEPHANTを11個のモデルに適用した結果、LLMは平均的に一般的なアドバイスクエリで、ユーザーの明白な誤りを描写するクエリでユーザー「顔(self-image)」を人間より45%p保存していることがわかった。さらに、道徳的葛藤の両方の立場を提示したとき、LLMは、ユーザーがどの立場を取っても、両方を擁護する傾向を示した。この研究は、社会的お世辞が好みのデータセットで補償されることを示し、お世辞緩和のための既存の戦略は限られているがモデルベースのステアリングが有望であることを示唆している。