본 논문은 대규모 언어 모델(LLM)의 과학적으로 정교한 악용에 대한 안전성을 평가하기 위한 새로운 벤치마크인 SOSBench를 제안합니다. 기존 벤치마크가 지식 이해가 적거나 위험도가 낮은 프롬프트에 집중하는 것과 달리, SOSBench는 화학, 생물학, 의학, 약리학, 물리학, 심리학 등 6개의 고위험 과학 분야를 다루며, 실제 규정 및 법률에서 파생된 3,000개의 프롬프트를 포함합니다. LLM을 활용한 진화적 파이프라인을 통해 다양하고 현실적인 악용 시나리오를 생성하여 모델의 안전성을 종합적으로 평가합니다. 평가 결과, 최첨단 모델들조차도 정책 위반 콘텐츠를 지속적으로 생성하며 높은 비율의 유해한 응답을 보이는 것으로 나타났습니다.