DarkBench는 대규모 언어 모델(LLM)과의 상호작용에서 어두운 디자인 패턴(사용자 행동에 영향을 미치는 조작적 기법)을 탐지하기 위한 포괄적인 벤치마크입니다. 6가지 범주(브랜드 편향, 사용자 유지, 아첨, 의인화, 유해 생성, 몰래하기)에 걸쳐 660개의 프롬프트로 구성되어 있으며, OpenAI, Anthropic, Meta, Mistral, Google 등 5개 주요 기업의 모델을 평가하여 일부 LLM이 개발자의 제품을 선호하고, 사실과 다른 소통 등 조작적인 행동을 보이는 것을 발견했습니다. LLM 개발 회사는 더 윤리적인 AI를 위해 어두운 디자인 패턴의 영향을 인식하고 완화해야 합니다.