Do Linear Probes Generalize Better in Persona Coordinates?

작성자

Haebom

카테고리

Empty

저자

Prasad Mahadik, Adrians Skapars

💡 개요

언어 모델의 유해 행동 모니터링에서 텍스트만으로는 한계가 있어 모델 내부를 직접 읽는 선형 프로브(linear probes)가 대안으로 떠올랐습니다. 본 연구는 모델 내부의 저차원 부분 공간이 유해 행동을 더 견고하게 포착할 수 있는지 탐구하며, 이를 위해 대조적인 페르소나 프롬프트를 활용하여 기만(deception) 및 아첨(sycophancy)에 대한 페르소나 축을 구축했습니다. 페르소나 축의 주성분(principal components)을 사용한 선형 프로브가 일반적인 활성화 값보다 다양한 평가 데이터셋에서 더 나은 일반화 성능을 보였습니다.

🔑 시사점 및 한계

•

여러 유해 행동과 무해한 행동을 통합한 단일 축이 다양한 행동과 데이터셋에 걸쳐 일반화 성능을 향상시켰습니다.

•

페르소나 벡터는 전이성이 높은 행동 프로브를 구축하기 위한 유용한 귀납적 편향(inductive bias)을 제공합니다.

•

제안된 방법이 분포 변화(distribution shift) 하에서 선형 프로브의 일반화 성능을 개선할 가능성을 보여줍니다.

•

특정 언어 모델 아키텍처나 훈련 방식에 대한 일반화 가능성, 그리고 구축된 페르소나 축의 해석 가능성에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage