본 논문은 과학 연구 분야에서 대규모 언어 모델 (LLM)의 신뢰성을 평가하기 위한 포괄적인 프레임워크인 SciTrust 2.0을 제시합니다. SciTrust 2.0은 진실성, 적대적 견고성, 과학적 안전성, 과학적 윤리의 네 가지 측면에서 LLM의 신뢰성을 평가하며, 검증된 반사-튜닝 파이프라인과 전문가 검증을 통해 개발된 새로운 개방형 진실성 벤치마크와 이중 사용 연구 및 편향을 포함한 8가지 하위 범주를 다루는 과학 연구 맥락에서의 새로운 윤리 벤치마크를 통합합니다. GPT-o4-mini를 포함한 7개의 LLM을 평가한 결과, 일반 목적 산업 모델이 각 신뢰성 차원에서 과학 전문 모델보다 전반적으로 우수한 성능을 보였고, 과학 전문 모델은 논리적 및 윤리적 추론 능력과 안전성 평가에서 상당한 결함을 보였습니다.