본 논문은 웹에서 대규모 언어 모델(LLM)을 배포하는 데 중요한 신뢰할 수 있는 동작 제어를 목표로 합니다. 특히, PIXEL이라는 새로운 활성화 조향 프레임워크를 제안합니다. PIXEL은 속성(예: 진실성)을 정렬하여 신뢰할 수 있는 생성을 보장하는 튜닝 없는 접근 방식을 제공합니다. PIXEL은 이전에 사용된 조잡한 휴리스틱의 한계를 극복하고, 듀얼 뷰(꼬리 평균 및 최종 토큰)에서 속성 정렬 하위 공간을 학습합니다. 또한, 닫힌 형식 솔루션을 사용하여 제약된 기하학적 목표를 통해 개입 강도를 선택하여 전역 하이퍼파라미터 튜닝 없이 토큰 수준의 민감도에 적응합니다. PIXEL은 표본 수준의 직교 잔여 보정을 수행하여 전역 속성 방향을 개선하고, 가벼운 위치 스캔 루틴을 사용하여 수용적인 주입 사이트를 식별합니다. 최소 개입 규칙에 대한 표현 수준 보장도 제공합니다. 다양한 모델 및 평가 패러다임에서 PIXEL은 모델의 일반적인 기능을 유지하면서 속성 정렬을 일관되게 개선하여 LLM의 제어 가능한 생성을 위한 실용적이고 원칙적인 방법을 제공합니다.