본 논문은 안전 지향적 언어 모델의 유해하거나 비윤리적인 프롬프트를 거부하는 기능인 거부 동작을 연구한다. 기존 연구가 거부 동작을 모델 잠재 공간의 단일 방향으로 인코딩한 것과 달리, 본 논문은 자기 조직 지도(SOM)를 활용하여 여러 거부 방향을 추출하는 새로운 방법을 제안한다. SOM을 사용하여 여러 거부 방향을 추출하고, 이를 제거함으로써 모델의 거부 동작을 효과적으로 억제하는 결과를 얻었다.
시사점, 한계점
•
시사점:
◦
SOM을 활용하여 모델 내부의 거부 동작을 여러 방향으로 표현하고 제어할 수 있음을 입증.
◦
단일 방향 기반의 기존 방법과 특정 탈옥 알고리즘보다 더 효과적인 거부 동작 억제 성능을 보임.
◦
언어 모델의 개념이 저차원 매니폴드로 인코딩된다는 최근 연구 결과와 일치하는 접근 방식을 제시.
•
한계점:
◦
SOM 기반 방법의 일반화 가능성과 다른 모델 아키텍처 및 작업에 대한 적용 가능성 추가 연구 필요.