온라인 소셜 네트워크 (OSN)에서 유해하고 독성적인 담론 확산을 완화하기 위해 콘텐츠 검토가 널리 사용되지만, 데이터 수집의 높은 비용과 제한된 실험적 통제력으로 인해 검토 중재의 실제 효과는 불분명하다. 대규모 언어 모델 (LLM)을 활용하여 에이전트 기반 모델링을 개선하고 전례 없는 수준의 신뢰도로 인간과 유사한 사회적 행동을 시뮬레이션하는 새로운 평가 접근 방식을 제시한다. OSN 대화의 LLM 기반 시뮬레이터를 설계하여, 모든 것을 동일하게 유지하면서 독성 행동이 검토 중재의 영향을 받는 병렬, 반사실적 시뮬레이션을 가능하게 한다. 광범위한 실험을 통해 OSN 에이전트의 심리적 현실성, 사회적 전염 현상의 출현 및 개인화된 검토 전략의 우수한 효과를 밝힌다.