Cet article présente le potentiel d'exploitation des capacités de raisonnement physique des modèles linguistiques à grande échelle (MLE) pour l'interaction homme-robot (IH) en situation de secours. Afin de répondre aux contraintes de taille des LLE existants, nous proposons un ensemble de données et un pipeline pour générer un modèle d'agent de raisonnement et de décodage d'instructions sur le terrain (FRIDA). En combinant les connaissances d'experts du domaine et de linguistes, nous générons des invites de haute qualité, peu nombreuses, qui sont ensuite utilisées pour affiner un petit modèle optimisé par les instructions à l'aide de données synthétiques. Nous démontrons expérimentalement qu'un modèle FRIDA entraîné uniquement sur l'état physique et les données de caractéristiques des objets surpasse les modèles entraînés entièrement sur des données synthétiques et des modèles de base, démontrant ainsi sa capacité à inculquer le bon sens physique avec un minimum de données.