Subliminal Learning: Language models transmit behavioral traits via hidden signals in data
Created by
Haebom
저자
Alex Cloud, Minh Le, James Chua, Jan Betley, Anna Sztyber-Betley, Jacob Hilton, Samuel Marks, Owain Evans
개요
본 논문은 언어 모델이 의미적으로 무관한 데이터를 통해 행동 특성을 전달하는 놀라운 현상인 잠재 학습(subliminal learning)을 연구합니다. "선생님" 모델이 올빼미를 좋아하거나 잘못 정렬되는 등의 특성 T를 가지고 숫자 시퀀스만으로 구성된 데이터셋을 생성하는 주요 실험에서, 이 데이터셋으로 훈련된 "학생" 모델은 특성 T를 학습합니다. 이 현상은 특성 T에 대한 언급이 제거된 데이터를 사용하더라도 발생합니다. 동일한 선생님 모델이 생성한 코드 또는 추론 과정을 사용하여 훈련할 때도 동일한 효과가 관찰됩니다. 그러나 선생님 모델과 학생 모델의 기본 모델이 다를 경우에는 이러한 효과가 관찰되지 않습니다. 연구진은 이러한 결과를 설명하기 위해 특정 조건 하에서 모든 신경망에서 잠재 학습이 발생한다는 이론적 결과를 증명하고, 간단한 MLP 분류기에서 잠재 학습을 보여줍니다. 결론적으로 잠재 학습은 AI 개발에 예상치 못한 위험을 초래하는 일반적인 현상임을 시사합니다. 데이터 필터링을 통해 개발자가 이를 방지하려고 시도하더라도, 지식 증류(Distillation)를 통해 의도하지 않은 특성이 전파될 수 있습니다.
시사점, 한계점
•
시사점:
◦
잠재 학습은 AI 모델 개발 과정에서 의도치 않은 특성 전파 가능성을 보여주는 일반적인 현상임을 밝힘.
◦
데이터 필터링만으로는 의도하지 않은 특성 전파를 완벽하게 방지할 수 없음을 시사.
◦
지식 증류 등의 기술을 사용할 때 발생 가능한 위험성을 강조.
•
한계점:
◦
선생님 모델과 학생 모델의 기본 모델이 다를 경우 잠재 학습이 발생하지 않음. 다양한 모델 구조에 대한 추가 연구 필요.