본 논문은 대규모 언어 모델(LLM) 성능 향상을 위한 훈련 없는 방법 중 토큰 수준의 어텐션 조정에 초점을 맞추고 있습니다. 기존 방법들은 중요하거나 무관한 작업 관련 토큰을 식별하기 위한 보조 메커니즘에 의존하여 편향을 유발하고 적용성을 제한하는 문제점을 가지고 있습니다. 본 논문에서는 놀랍게도 의미상 공백인 초기 토큰이 모델 동작을 최적화하기 위한 강력하고 미개척된 제어 지점임을 밝힙니다. 이론적 분석을 통해 초기 토큰의 어텐션 조정이 후속 토큰에 대한 어텐션 분포를 예리하게 하거나 평평하게 하고, 어텐션 싱크 역할을 통해 이 효과를 증폭시킴을 보여줍니다. 실험적으로 초기 토큰의 어텐션 조정이 다른 작업 관련 토큰을 조정하는 것보다 LLM 성능을 더 효과적으로 향상시키며, 이 효과는 계층에 따라 일관된 경향을 보이지만 어텐션 헤드에 따라 다름을 발견했습니다. 이러한 발견을 바탕으로, 본 논문에서는 이 특수 토큰에 헤드별 어텐션 조정을 적용하여 LLM 성능을 향상시키는 훈련 없는 접근 방식인 ZeroTuning을 제안합니다. ZeroTuning은 단 하나의 토큰만 조정함에도 불구하고 Llama, Qwen, DeepSeek 등 여러 모델에서 텍스트 분류, 객관식, 다회차 대화 작업에서 높은 성능을 달성합니다. 또한 제한된 자원, 몇 번의 샷 설정, 긴 컨텍스트, 양자화, 디코딩 전략 및 프롬프트 변형에 대해 강건함을 보입니다. 본 연구는 LLM에서 이전에 간과되었던 제어 지점을 밝히고, 추론 시 조정 및 모델 해석성에 대한 새로운 통찰력을 제공합니다.