본 논문은 FP4 정밀도로 Transformer를 사전 훈련하는 방법의 속도 향상 가능성과 정확도 저하 문제를 다룹니다. Microscaling (MX) 데이터 형식이 FP4 형식의 표현 능력을 향상시키지만, MXFP4로 훈련 시 여전히 정확도 저하가 발생하는 문제점을 지적합니다. 이에 본 논문에서는 더욱 정확한 FP4 훈련을 위한 새로운 훈련 방법인 TetraJet을 제안합니다. MXFP4 훈련의 정확도 저하 원인을 가중치 진동 문제로 규명하고, 이를 해결하기 위해 EMA Quantizer (Q-EMA)와 Adaptive Ramping Optimizer (Q-Ramping)라는 두 가지 새로운 방법을 제시합니다. Vision Transformer를 이용한 광범위한 실험을 통해 TetraJet이 기존 4-bit 훈련 방법보다 우수하며, Q-EMA와 Q-Ramping이 진동을 효과적으로 줄여 추가적인 성능 향상을 제공함을 보여줍니다. 기준 방법 대비 정확도 저하를 50% 이상 감소시켰으며, 심지어 전정밀도 훈련과 비슷한 성능을 달성하기도 했습니다.