En este artículo, presentamos una novedosa metodología, ThirdEye, que aprovecha explícitamente las señales monoculares (p. ej., límites de oclusión, sombras y perspectiva) utilizadas por el sistema visual humano, en lugar del enfoque tradicional de entrenamiento de modelos de aprendizaje profundo basado en píxeles RGB para la estimación de la profundidad monocular. ThirdEye extrae cada señal mediante una red especializada preentrenada y las fusiona mediante una jerarquía cortical visual de tres niveles (V1, V2 y V3) y un módulo de memoria de trabajo de clave-valor ponderado por confianza. Finalmente, genera un mapa de disparidad de alta resolución utilizando un cabezal transformador de bin adaptativo. La red experta de señales es fija, lo que le permite aprender con un pequeño ajuste fino, a la vez que utiliza eficazmente la supervisión externa. Una versión ampliada de este artículo proporciona detalles estructurales adicionales, motivación neurocientífica y un protocolo experimental ampliado. Los resultados cuantitativos se incluirán en una futura revisión.