Sign In

SciTrust 2.0: A Comprehensive Framework for Evaluating Trustworthiness of Large Language Models in Scientific Applications

Created by
  • Haebom
Category
Empty

저자

Emily Herron, Junqi Yin, Feiyi Wang

개요

본 논문은 과학 연구 분야에서 대규모 언어 모델 (LLM)의 신뢰성을 평가하기 위한 포괄적인 프레임워크인 SciTrust 2.0을 제시합니다. SciTrust 2.0은 진실성, 적대적 견고성, 과학적 안전성, 과학적 윤리의 네 가지 측면에서 LLM의 신뢰성을 평가하며, 검증된 반사-튜닝 파이프라인과 전문가 검증을 통해 개발된 새로운 개방형 진실성 벤치마크와 이중 사용 연구 및 편향을 포함한 8가지 하위 범주를 다루는 과학 연구 맥락에서의 새로운 윤리 벤치마크를 통합합니다. GPT-o4-mini를 포함한 7개의 LLM을 평가한 결과, 일반 목적 산업 모델이 각 신뢰성 차원에서 과학 전문 모델보다 전반적으로 우수한 성능을 보였고, 과학 전문 모델은 논리적 및 윤리적 추론 능력과 안전성 평가에서 상당한 결함을 보였습니다.

시사점, 한계점

시사점:
SciTrust 2.0은 과학 연구 분야에서 LLM의 신뢰성을 평가하기 위한 포괄적인 프레임워크를 제공합니다.
일반 목적 산업 모델이 과학 전문 모델보다 전반적으로 우수한 성능을 보였습니다.
GPT-o4-mini는 진실성 평가와 적대적 견고성에서 우수한 성능을 보였습니다.
과학 전문 모델은 논리적, 윤리적 추론 능력 및 안전성 평가에서 취약점을 보였습니다.
오픈 소스 프레임워크를 통해 보다 신뢰할 수 있는 AI 시스템 개발 및 모델 안전성 연구를 촉진합니다.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없습니다.
👍