본 논문은 다양한 사용자 가치와 요구에 맞춰 LLM의 적응성을 강조하는 다원적 정렬(pluralistic alignment) 목표에 따라 LLM을 평가하는 동적 평가 스위트인 PLURALISTIC BEHAVIOR SUITE (PBSUITE)를 제시합니다. PBSUITE는 30개 산업 분야에 걸쳐 300개의 현실적인 LLM 행동 정책 데이터세트와, 적대적 조건에서 사용자 지정 행동 사양에 대한 모델 준수성을 스트레스 테스트하는 동적 평가 프레임워크로 구성됩니다. 연구 결과, LLM은 단일 턴 설정에서는 행동 정책을 강력하게 준수하지만, 다중 턴 적대적 상호 작용에서는 준수율이 크게 감소하는 것으로 나타났습니다.