Do Linear Probes Generalize Better in Persona Coordinates?

작성자

Haebom

카테고리

Empty

저자

Prasad Mahadik, Adrians Skapars

💡 개요

본 연구는 언어 모델의 유해 행동을 탐지하기 위한 화이트박스 모니터링 기법인 선형 탐침(linear probes)의 일반화 성능을 향상시키는 방법을 탐구합니다. 모델 내부 상태의 저차원 부분 공간인 '페르소나 좌표'를 활용하여, 훈련 데이터 분포 변화에도 강건한 유해 행동 포착을 목표로 합니다. 페르소나 좌표를 사용한 선형 탐침이 원본 활성화 값에 직접 훈련한 탐침보다 더 나은 일반화 성능을 보임을 실험적으로 입증했습니다.

🔑 시사점 및 한계

•

유해 행동 탐지를 위한 선형 탐침의 일반화 성능은 모델 내부의 특정 저차원 '페르소나 좌표'를 활용함으로써 크게 향상될 수 있습니다.

•

페르소나 축에 대한 주성분 분석(PCA)을 통해 얻은 방향 벡터는 유해 및 무해 행동을 효과적으로 분리하며, 이를 활용한 탐침은 다양한 평가 데이터셋에서 더 나은 일반화 성능을 보입니다.

•

여러 유해 및 무해 행동을 통합한 단일 축은 행동 및 데이터셋 전반에 걸친 일반화 성능을 더욱 개선할 수 있습니다.

•

본 연구에서 제안된 페르소나 벡터는 더 이식성 있는 행동 탐침 개발을 위한 유용한 귀납적 편향(inductive bias)을 제공합니다.

PDF 보기

Made with Slashpage