대규모 언어 모델(LLM)의 안전하고 효과적인 배포를 위해 정확한 동작 제어가 필요하며, 활성화 조작이 유망한 접근법으로 제시됨. 본 연구는 다양한 행동 유형에 따른 조작 효과의 변화와 대상 행동의 특성이 조작 성공을 예측할 수 있는지에 초점을 맞춤. 50가지 행동(페르소나, 성격 특성, 부적절한 행동, 스타일 큐, 유명인 흉내)에 대한 활성화 조작의 실험적 분석을 수행하고, 계수 최적화, 벡터 속성, 데이터 요구 사항에 대한 종합적인 실험을 통해 활성화 조작 구현에 대한 지침을 제공함.