The Impact of Off-Policy Training Data on Probe Generalisation

Created by

Haebom

저자

Nathalie Kirch, Samuel Dower, Adrians Skapars, Helen Yannakoudakis, Ekdeep Singh Lubana, Dmitrii Krasheninnikov

💡 개요

본 연구는 대규모 언어 모델(LLM)의 우려스러운 행동 탐지에 활용되는 프로빙(probing) 기법에서, 정책 외(off-policy) 학습 데이터가 프로브의 일반화 성능에 미치는 영향을 체계적으로 분석합니다. 다양한 LLM 및 8가지 행동에 걸쳐 선형 및 어텐션 프로브를 실험한 결과, 데이터 생성 전략이 프로브 성능에 상당한 영향을 미치며, 특히 응답 "의도"에 기반한 행동에서 일반화 실패가 크게 나타나는 것을 발견했습니다. 정책 외 데이터가 특정 조건에서는 오히려 더 신뢰할 수 있는 프로브를 생성할 수 있음을 시사합니다.

🔑 시사점 및 한계

•

정책 외 학습 데이터를 사용할 경우, 데이터 생성 방식이 프로브의 일반화 성능에 결정적인 영향을 미칠 수 있습니다.

•

텍스트 수준의 내용보다는 응답의 "의도"를 정의하는 행동(예: 전략적 속임수)에서 프로브의 일반화 실패가 두드러집니다.

•

정책 외 데이터셋에 대한 성공적인 일반화는 정책 내(on-policy) 테스트 데이터셋에서의 높은 성능을 강하게 예측하는 지표가 될 수 있습니다.

•

본 연구 결과는 현재의 속임수 탐지 프로브가 실제 모니터링 시나리오에 일반화되지 못할 가능성을 시사하며, 모든 종류의 분포 변화를 처리할 수 있는 개선된 모니터링 방법론의 필요성을 강조합니다.

PDF 보기

Made with Slashpage