Cet article vise à développer une représentation graphique de scène 3D identifiant l'emplacement et l'utilisation des éléments d'interaction fonctionnels, permettant ainsi aux robots d'interagir directement avec leur environnement. Au lieu de s'appuyer sur une résolution traditionnelle au niveau objet, nous nous concentrons sur la détection et le stockage d'objets à une résolution plus fine, en nous concentrant sur leur signification fonctionnelle. Pour pallier la rareté des données et les difficultés liées à la capture de caractéristiques détaillées d'objets à l'aide de capteurs robotisés, nous exploitons les ressources 3D existantes pour générer des données 2D et entraîner des détecteurs, améliorant ainsi le pipeline standard de génération de graphes de scène 3D. Les résultats expérimentaux démontrent que notre approche atteint des performances de segmentation des éléments fonctionnels comparables à celles des modèles 3D de pointe et permet des associations sémantiques fonctionnelles pilotées par tâches avec une précision supérieure aux solutions existantes.