When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels

작성자

Haebom

카테고리

Empty

저자

Sushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bj{\o}rklund, Leon Moonen, Klas Pettersen, Michael A. Riegler

💡 개요

본 논문은 레이블이 없는 상황에서 언어 모델의 안전성을 비교 평가하는 "벤치마크리스(benchmarkless)" 접근법을 제시합니다. 제안된 방법론은 안전한 대상과 제거된(abliterated) 대상 간의 통제된 비교를 통해 평가의 유효성을 확보하며, 감사자, 심사자, 샘플링 구성 등의 변수를 고정했을 때 안정적인 점수를 얻는 것을 목표로 합니다. 실험 결과, 제안된 방법론이 효과적으로 안전한 모델과 그렇지 않은 모델을 구분하고, 평가 결과가 다양한 시나리오 범주와 위험 측정 지표에 따라 달라질 수 있음을 보여줍니다.

🔑 시사점 및 한계

•

레이블이 없는 상황에서도 언어 모델의 안전성 비교 평가가 가능하며, 이는 규제 준수 및 실제 배포 환경에서 중요한 시사점을 제공합니다.

•

평가 결과는 특정 시나리오, 감사자, 심사자, 샘플링 구성 등의 조합에 따라 달라지므로, 점수와 함께 이러한 메타데이터를 함께 보고해야 합니다.

•

제안된 방법론은 특정 감사 도구(SimpleAudit)에 국한되지 않고 다른 도구(Petri)에도 적용 가능함을 보여주지만, 평가의 유효성은 클레임-계약 이행 및 배포 적합성에 따라 달라질 수 있습니다.

•

한계점으로는 감사 과정의 재현성 및 일반화를 위한 추가적인 검증이 필요할 수 있으며, 다양한 언어, 산업 분야, 규제 체제에 대한 일반화 가능성을 더욱 확장해야 합니다.

PDF 보기

Made with Slashpage