Cet article présente une nouvelle méthode visant à améliorer l'interprétabilité des images échographiques médicales et à aider les utilisateurs non experts à réaliser des échographies. Contrairement à la méthode de synthèse existante utilisant des modèles de langage à grande échelle (MLL), nous introduisons un graphe visuel (Graphique de scène, SG) qui décrit le contenu des images échographiques et guide l'échographie. Grâce à une méthode de traitement par lots basée sur Transformer, nous générons des SG échographiques sans détection d'objet et les affinons en fonction des requêtes des utilisateurs à l'aide des MLL afin de fournir des explications claires et compréhensibles pour le grand public. De plus, nous utilisons les SG prédits pour identifier les structures anatomiques manquantes dans les images actuelles et guider l'échographie, favorisant ainsi une exploration anatomique plus standardisée et plus complète. Nous avons validé la validité des images des régions cervicales gauche et droite, y compris l'artère carotide et la thyroïde, auprès de cinq volontaires. Les résultats montrent que cette méthode pourrait contribuer à la popularisation de l'échographie en améliorant la commodité de son interprétation et de son utilisation par les non-experts.