Cet article aborde le problème des hallucinations dans les modèles vision-langage à grande échelle (MLVL), en particulier celui des hallucinations relationnelles. Contrairement aux travaux précédents qui se concentraient principalement sur les hallucinations d'objets eux-mêmes, cet article présente un cadre unifié prenant en compte simultanément les objets et les relations. À cette fin, nous proposons un nouveau benchmark, Tri-HE, qui évalue les hallucinations à l'aide de triplets (objet, relation, objet). Les résultats expérimentaux obtenus avec Tri-HE montrent que les hallucinations relationnelles constituent un problème plus grave que les hallucinations d'objets, et nous proposons une approche simple et sans apprentissage pour les atténuer. L'ensemble de données et le code sont accessibles au public.