Este artículo aborda la Respuesta a Preguntas Integradas (EQA), una tarea crítica y desafiante para los asistentes robóticos. Los enfoques existentes tratan las preguntas y respuestas en video estático como tales o limitan las respuestas a opciones cerradas, lo que dificulta su aplicación práctica. Para superar estas limitaciones, presentamos EfficientEQA, un novedoso marco que combina la exploración eficiente con la generación de respuestas de formato libre. EfficientEQA presenta tres innovaciones clave: (1) exploración eficiente mediante Exploración de Frontera Ponderada por Valor Semántico (SFE) utilizando Confianza Verbalizada (VC) de un VLM de caja negra; (2) un mecanismo basado en BLIP que detiene la exploración adaptativamente al marcar las observaciones altamente relevantes como valores atípicos; y (3) un método de Generación Aumentada por Recuperación (RAG) que responde con precisión basándose en imágenes relevantes del historial de observación del agente, sin depender de opciones predefinidas. Los resultados experimentales muestran que EfficientEQA logra una precisión un 15% mayor que los métodos de última generación y requiere un 20% menos de pasos de exploración.