Cet article aborde la question-réponse intégrée (EQA), une tâche critique mais complexe pour les assistants robotiques. Les approches existantes traitent les questions-réponses vidéo statiques comme telles ou limitent les réponses à des choix fermés, ce qui entrave leur application pratique. Pour surmonter ces limitations, nous présentons EfficientEQA, un nouveau cadre combinant exploration efficace et génération de réponses libres. EfficientEQA présente trois innovations clés : (1) une exploration efficace via l'exploration de frontières pondérées en valeurs sémantiques (SFE) utilisant la confiance verbalisée (VC) d'un VLM boîte noire ; (2) un mécanisme basé sur BLIP qui arrête l'exploration de manière adaptative en signalant les observations très pertinentes comme aberrantes ; et (3) une méthode de génération augmentée de récupération (RAG) qui répond avec précision en se basant sur des images pertinentes de l'historique d'observation de l'agent, sans s'appuyer sur des choix prédéfinis. Les résultats expérimentaux montrent qu'EfficientEQA atteint une précision supérieure de plus de 15 % à celle des méthodes de pointe et nécessite plus de 20 % d'étapes d'exploration en moins.