Cet article explore une méthode d'extraction d'expressions référentes à partir de conversations visuelles, à l'aide de modèles linguistiques. Nous cherchons plus particulièrement à comprendre comment le contexte linguistique contribue à la détection de mentions avec des référents (visuellement reconnaissables) dans le contexte visuel des conversations. Nous annotons grossièrement les mentions dans les conversations en appliquant un modèle linguistique à grande échelle (MLL) pré-entraîné afin de délimiter les mentions dans les textes grâce à des prédictions de prochains jetons. Nous démontrons qu'une approche textuelle est efficace même avec un LLM de taille moyenne, un jeu de données relativement restreint et un réglage fin optimisé, soulignant l'importance relative du contexte linguistique pour cette tâche. Cependant, cette tâche est intrinsèquement multimodale, et nous discutons des limites fondamentales des approches unimodales.