Dans cet article, nous présentons RadGazeIntent, une approche basée sur l'apprentissage profond pour modéliser le comportement intentionnel de suivi du regard des radiologues. Afin de surmonter les limites des modèles existants dans la capture de l'intention sous-jacente des fixations, nous utilisons une architecture basée sur des transformateurs pour traiter les dimensions temporelles et spatiales des données de regard. Nous traduisons les caractéristiques de fixation fines en représentations significatives et grossières des intentions diagnostiques afin d'interpréter les objectifs des radiologues. Nous générons trois sous-ensembles d'étiquettes d'intention : RadSeq (exploration séquentielle systématique), RadExplore (exploration basée sur l'incertitude) et RadHybrid (modèles mixtes) pour capturer les nuances des divers comportements intentionnels des radiologues. Les résultats expérimentaux montrent que RadGazeIntent surpasse les méthodes de référence sur tous les ensembles de données d'étiquettes d'intention pour prédire les résultats examinés par les radiologues à un instant T.