표준 자기회귀 생성 방식에서 LLM은 다음 토큰 분포를 예측하고, 이산 토큰을 샘플링한 후 분포를 버리고 샘플링된 토큰만 새로운 입력으로 전달합니다. 본 논문에서는 이 분포의 풍부한 정보를 보존하기 위해, 자기회귀 생성을 위한 훈련이 필요 없는 방법인 Mixture of Inputs (MoI)를 제안합니다. 표준 방식에 따라 토큰을 생성한 후, 생성된 이산 토큰과 이전에 버려진 토큰 분포를 혼합한 새로운 입력을 구성합니다. 구체적으로, 토큰 분포를 사전 확률, 샘플링된 토큰을 관측값으로 취급하는 베이지안 추정 방법을 사용하여 기존의 원-핫 벡터를 연속적인 사후 기댓값으로 대체하여 새로운 모델 입력으로 사용합니다. MoI는 모델이 생성 과정 전반에 걸쳐 더 풍부한 내부 표현을 유지할 수 있도록 하여 텍스트 품질과 추론 능력을 향상시킵니다. 수학적 추론, 코드 생성 및 박사급 수준의 QA 작업에서 QwQ-32B, Nemotron-Super-49B, Gemma-3-27B 및 DAPO-Qwen-32B를 포함한 여러 모델에서 추가 훈련 없이, 무시할 만한 계산 오버헤드로 성능이 일관되게 향상되었습니다.