この論文は、ロボットが環境と直接対話できるように、機能的相互作用要素の位置と使用方法を識別する3Dシーングラフ表現を開発することを目的としています。従来のオブジェクトレベルの解像度ではなく、機能的な意味を持つ部分に焦点を当て、より細かい解像度でオブジェクトを検出して保存することに焦点を当てています。データ不足とロボットセンサーを使用した詳細なオブジェクトの特徴をキャプチャすることの難しさを解決するために、既存の3Dリソースを活用して2Dデータを生成し、検出器を学習して、標準的な3Dシーングラフ生成パイプラインを強化します。実験結果は,本論文のアプローチが最先端の3Dモデルと比較した機能的要素分割性能を達成し,従来のソリューションよりも高い精度で作業指向の機能的意味連結を可能にすることを示した。