PIXEL: Adaptive Steering Via Position-wise Injection with eXact Estimated Levels under Subspace Calibration
Created by
Haebom
Category
Empty
저자
Manjiang Yu, Hongji Li, Priyanka Singh, Xue Li, Di Wang, Lijie Hu
PIXEL: LLMs의 제어 가능한 생성을 위한 적응형 활성화 조향
개요
PIXEL은 대규모 언어 모델(LLM)의 신뢰할 수 있는 생성을 위한 튜닝이 필요 없는 활성화 조향 프레임워크입니다. 이 프레임워크는 속성 정렬을 위해 이중 뷰(tail-averaged 및 end-token)에서 속성 정렬된 하위 공간을 학습하고, 폐쇄형 솔루션을 가진 제약된 기하학적 목표를 통해 개입 강도를 선택합니다. PIXEL은 또한 샘플 수준 직교 잔차 보정을 수행하여 전역 속성 방향을 개선하고, 가벼운 위치 스캔 루틴을 사용하여 수용적인 주입 사이트를 식별합니다. PIXEL은 최소 개입 규칙에 대한 표현 수준의 보장도 제공합니다.
시사점, 한계점
•
다양한 모델 및 평가 패러다임에서 속성 정렬을 일관되게 개선하면서 모델의 일반적인 기능을 유지합니다.
•
LLM의 제어 가능한 생성을 위한 실용적이고 원리적인 방법을 제공합니다.
•
개입 강도 선택을 위한 폐쇄형 솔루션을 제공하여 글로벌 하이퍼파라미터 튜닝 없이 토큰 수준 민감도에 적응합니다.