Sign In

Seed-Induced Uniqueness in Transformer Models: Subspace Alignment Governs Subliminal Transfer

Created by
  • Haebom
Category
Empty

저자

Ay\c{s}e Selin Okatan, Mustafa Ilhan Akba\c{s}, Laxima Niure Kandel, Berker Pekoz

개요

Transformer 모델에서 교사가 메인 태스크 성능 저하 없이 학생이 선형적으로 디코딩할 수 있는 숨겨진 특징을 임베딩하는 잠재 전송을 분석합니다. 이전 연구에서는 전송 가능성이 CKA(Centered Kernel Alignment)로 정량화된 전반적인 표현 유사성에 기인한다고 봤습니다. 분리된 공개 및 비공개 레이블이 있는 합성 코퍼스를 사용하여 일치 및 독립적인 무작위 초기화를 통해 학생을 증류합니다. 특징을 구별하는 하위 공간 내의 정렬에 전송 강도가 달려 있음을 발견했습니다. 동일 시드 학생은 이 정렬을 상속받아 더 높은 누출 {\tau \approx} 0.24를 보이며, 다른 시드 학생은 전반적인 CKA > 0.9에도 불구하고 과도한 정확도가 상당히 감소({\tau \approx} 0.12 - 0.13)했습니다. 하위 공간 수준의 CKA 진단 및 잔차 프로브를 사용하여 이를 공식화하여, 누출이 전반적인 표현 유사성이 아닌 특징을 구별하는 하위 공간 내의 정렬을 추적함을 보여줍니다. 보안 제어(투영 패널티, 적대적 반전, 잘못된 이유로의 정규화)는 공개 작업 충실도를 손상시키지 않으면서 동일한 기본 모델에서 누출을 줄입니다. 이러한 결과는 시드 유발 고유성을 복원력 속성으로 확립하고, 안전한 다중 모델 배포를 위한 하위 공간 인식 진단을 주장합니다.

시사점, 한계점

시사점:
Transformer 모델에서 잠재적 특징 전송은 전반적인 표현 유사성보다 특징을 구별하는 하위 공간의 정렬에 더 의존합니다.
시드에 따른 초기화의 차이는 누출 정도에 영향을 미치는 중요한 요인입니다.
하위 공간 인식 진단은 안전한 다중 모델 배포에 유용할 수 있습니다.
보안 제어를 통해 잠재적 특징 누출을 줄일 수 있습니다.
한계점:
연구는 합성 코퍼스를 사용하므로 실제 데이터에 대한 일반화 가능성에 한계가 있을 수 있습니다.
특정 보안 제어 방법의 효과는 다른 설정에서 다를 수 있습니다.
👍