본 논문은 토큰 수준의 어텐션 튜닝(Post-hoc Attention Steering (PASTA), Attention Calibration (ACT) 등)의 한계를 극복하기 위해, 초기 토큰에 대한 가벼운 바이어스 조정을 통해 LLM 성능을 향상시키는 새로운 훈련 없는 방법인 ZeroTuning을 제안한다. 이론적으로 초기 토큰에 대한 바이어스 추가가 다운스트림 어텐션 분포의 엔트로피를 제어하며, 특히 초기 레이어에서 효과가 크고, 어텐션 헤드별로 다른 스케일링 선호도를 보임을 확인했다. ZeroTuning은 초기 토큰에 헤드별 어텐션 조정을 적용하여 모델의 출력 엔트로피를 최소화하는 방식으로 작동하며, LlamaAttention 코드에 단 4줄의 수정만으로 구현 가능하다. 두 가지 변형(지도 학습 및 비지도 학습)을 제시하며, 15개 데이터셋에서 기존 방법보다 우수한 성능을 보였다. Llama-3.1-8B 모델을 사용하여 분류 작업에서 19.9%, 질문 답변 작업에서 4.5%, 대화 작업에서 2.1%의 상대적 성능 향상을 달성했으며, 양자화된 추론 및 긴 컨텍스트 길이에서도 성능을 유지한다.