본 논문은 대규모 언어 모델(LLM)의 질의응답(QA) 과제에서 사실 정확도를 향상시키는 새로운 활성화 제어 방법인 Fusion Steering을 제시합니다. Fusion Steering은 전체 계층 제어 및 분할 제어를 포함한 유연한 제어 구성을 도입합니다. 기존의 단일 계층 또는 고정 계층 연산에 제한된 방법과 달리, Fusion Steering은 모든 트랜스포머 계층에 프롬프트별 활성화 델타를 동적으로 주입합니다. 이러한 활성화 델타는 정답과 모델이 생성한 설명을 결합한 참조 완성에서 파생되며, 의미적으로 풍부하고 예시 특정적인 제어를 가능하게 합니다. 주입 가중치는 토큰 중복(사실적 정렬)과 당황도(유창성 근사치)를 균형 있게 고려하는 공동 목표를 사용하여 Optuna를 통해 프롬프트별로 최적화됩니다. 평가는 토큰 중복과 LLM 등급 품질을 통합한 복합 점수를 사용하며, 사실 정확도, 일관성 및 관련성을 포함합니다. 260개의 SimpleQA 프롬프트(기준 모델이 실패한 500개 중 선택)에 대한 실험 결과는 분할 제어의 효과를 보여줍니다. Gemma-2-2B-IT를 8비트 양자화와 함께 사용하여 분할 제어는 25.4%(0.6 이상의 점수를 받은 출력)의 정확도를 달성하여 기준 모델(3.5%) 및 전체 계층 제어(16.2%)를 능가합니다. 더 엄격한 SimpleQA 기준에 따르면, 분할 제어는 완전히 정확한 응답을 0.0%에서 13.1%로 높입니다. 이러한 결과는 분할적이고 동적인 개입 전략의 강점과 프롬프트별 전체 네트워크 활성화 제어의 가능성을 강조합니다. Fusion Steering은 Neuronpedia 또는 sparse crosscoders와 같은 희소 표현에도 적용 가능하며, LLM에서 해석 가능하고 확장 가능한 활성화 수준 제어를 위한 유망한 방향을 제시합니다.