Cet article s'interroge sur l'optimisation de la fonction objective autorégressive conventionnelle (qui calcule la perte uniquement pour les jetons de réponse) pour le réglage des instructions. Il propose une nouvelle méthode, le réglage pondéré des instructions (WIT), qui pondère différemment les jetons d'invite et les jetons de réponse. Grâce à des expériences approfondies avec cinq modèles de langage de tailles variées, trois jeux de données de réglage fin de tailles différentes et cinq benchmarks d'évaluation différents, nous montrons que la fonction de perte de réglage des instructions conventionnelle n'offre pas de performances et de robustesse optimales face aux modifications des invites d'entrée. Nous constatons qu'attribuer des pondérations faibles aux jetons d'invite et des pondérations moyennes à élevées aux jetons de réponse permet d'obtenir les meilleures performances dans divers contextes et constitue un meilleur point de départ pour l'apprentissage ultérieur de l'alignement des préférences. Cette étude souligne la nécessité de repenser la fonction de perte de réglage des instructions et fournit des informations exploitables pour développer des modèles plus robustes et généralisables. Le code est accessible au public.