Este artículo enfatiza la importancia de la estimación de profundidad en cirugía endoscópica mínimamente invasiva y presenta una novedosa estrategia de ajuste fino mediante el Modelo Foundation para superar las limitaciones de las redes convencionales de estimación de profundidad basadas en CNN. En particular, proponemos un marco implícito de estimación de profundidad monocular no supervisada, basado en el Modelo Depth Anything, para optimizar la estimación de profundidad en imágenes endoscópicas. Este modelo integra una técnica de adaptación de bajo rango basada en vectores aleatorios y un bloque residual basado en convolución separable por profundidad para mejorar la adaptabilidad a diversas escalas y complementar la limitación del Transformer en el aprendizaje de características locales. Los resultados experimentales con los conjuntos de datos SCARED y Hamlyn demuestran que el método propuesto alcanza un rendimiento de vanguardia a la vez que minimiza el número de parámetros aprendibles.