본 논문은 대규모 언어 모델(LLM)의 과학적으로 정교한 악용에 대한 안전성을 평가하기 위한 새로운 벤치마크인 SOSBench를 제안합니다. 기존 벤치마크의 한계를 극복하고자, 화학, 생물학, 의학, 약리학, 물리학, 심리학 등 6개의 고위험 과학 분야를 다루며 실제 규정 및 법률에서 파생된 3,000개의 프롬프트를 사용합니다. LLM을 활용한 진화적 파이프라인을 통해 다양하고 현실적인 악용 시나리오를 생성하고, 최첨단 모델들을 평가하여 그 안전성 결함을 드러냅니다. 평가 결과, 최첨단 모델들이 정책 위반 콘텐츠를 지속적으로 생성하며 심각한 수준의 유해 응답률을 보이는 것을 확인했습니다 (예: Deepseek-R1 79.1%, GPT-4.1 47.3%).