Safe-SAIL: Towards a Fine-grained Safety Landscape of Large Language Models via Sparse Autoencoder Interpretation Framework
Created by
Haebom
저자
Jiaqi Weng, Han Zheng, Hanyu Zhang, Qinqin He, Jialing Tao, Hui Xue, Zhixuan Chu, Xiting Wang
개요
본 논문은 실세계 응용 프로그램에서 대규모 언어 모델(LLM)의 배포 증가로 인한 심각한 안전 문제를 다룹니다. 기존의 안전 연구는 주로 LLM 출력이나 특정 안전 작업에 초점을 맞춰 광범위하고 정의되지 않은 위험을 해결하는 데 한계가 있습니다. 본 논문에서는 희소 오토인코더(SAE)를 활용하여 모델 동작을 명확히 하고 안전 관련 위험 행동(예: 유해한 응답 생성, 안전 규정 위반)을 효과적으로 포착하는 풍부하고 다양한 안전 관련 특징을 추출하는 Safe-SAIL 프레임워크를 제안합니다. Safe-SAIL은 안전 개념 특이적 해석력이 가장 뛰어난 SAE를 체계적으로 식별하고, 안전 관련 뉴런을 설명하며, 해석 프로세스를 확장하기 위한 효율적인 전략을 도입합니다. 연구진은 SAE 체크포인트와 사람이 읽을 수 있는 뉴런 설명을 포함하는 포괄적인 툴킷을 공개하여 LLM 안전 연구를 촉진할 계획입니다.