본 논문은 대규모 언어 모델(LLM) 기반 과학 연구 자동화의 윤리적, 안전적 문제점을 해결하기 위해, 안전성과 윤리적 책임성을 강화한 AI 과학자 프레임워크인 SafeScientist를 제안한다. SafeScientist는 윤리적으로 부적절하거나 위험이 높은 작업을 사전에 거부하고, 프롬프트 모니터링, 에이전트 협업 모니터링, 도구 사용 모니터링 및 윤리 검토자 구성 요소 등 다양한 방어 메커니즘을 통합하여 안전성을 확보한다. 또한, AI의 과학적 안전성을 평가하기 위한 새로운 벤치마크인 SciSafetyBench를 제시하며, 6개 분야에 걸쳐 240개의 고위험 과학적 작업, 30개의 특별히 설계된 과학 도구, 120개의 도구 관련 위험 작업으로 구성된다. 실험 결과, SafeScientist는 기존 AI 과학자 프레임워크에 비해 안전성 성능을 35% 향상시키는 동시에 과학적 산출물의 질은 유지함을 보여준다. 다양한 적대적 공격 방법에 대한 강건성 검증도 수행되었다. 코드와 데이터는 공개적으로 제공될 예정이다.