본 논문은 대규모 언어 모델(LLM)이 웹 기반 정신 건강, 위기 관리 등 정서적으로 민감한 서비스에 널리 사용되면서, 이러한 환경에서의 심리사회적 안전성이 제대로 이해되지 않고 평가되지 않는다는 문제점을 제기합니다. 이를 해결하기 위해, DialogGuard라는 다중 에이전트 프레임워크를 제안하여 LLM이 생성한 응답의 심리사회적 위험을 평가합니다. DialogGuard는 개인 정보 침해, 차별적 행동, 정신 조작, 심리적 해악, 모욕적인 행동 등 5가지 심각한 위험 요소를 평가하며, 단일 에이전트 채점, 이중 에이전트 수정, 다중 에이전트 토론, 확률적 과반수 투표를 포함한 4가지 LLM 기반 평가 파이프라인을 사용합니다. PKU-SafeRLHF와 인간 안전 주석을 사용하여 다중 에이전트 메커니즘이 비 LLM 기반 및 단일 에이전트 평가보다 심리사회적 위험을 더 정확하게 감지한다는 것을 보여주며, 이중 에이전트 수정과 과반수 투표가 정확성, 인간 평가와의 일치성, 견고성 간의 최적의 균형을 제공합니다. DialogGuard는 오픈 소스 소프트웨어로 제공되며, 웹 인터페이스를 통해 차원별 위험 점수와 설명 가능한 자연어 근거를 제공합니다. 12명의 실무자와의 형성 연구를 통해 DialogGuard가 취약한 사용자를 위한 웹 기반 애플리케이션의 프롬프트 설계, 감사 및 감독을 지원함을 보여줍니다.