Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Ampliación de los estimadores de profundidad monoculares básicos a las cámaras de ojo de pez con tokens de calibración
Created by
Haebom
Autor
Suchisrit Gangopadhyay, Jung-Hee Kim, Xien Chen, Patrick Rim, Hyoungseob Park, Alex Wong
Describir
Este artículo propone un método para adaptar estimadores de profundidad monoculares básicos (FMDE), entrenados con imágenes de perspectiva convencionales, a imágenes de ojo de pez. A pesar de estar entrenados con decenas de millones de imágenes, los FMDE son susceptibles a cambios de covariables debido a cambios en los parámetros de calibración de la cámara (intrínsecos y de distorsión), lo que resulta en estimaciones de profundidad incorrectas. Nuestro método propuesto alinea la distribución de incrustaciones latentes que codifican imágenes de ojo de pez con las de imágenes en perspectiva, lo que permite la reutilización de los FMDE en cámaras de ojo de pez sin necesidad de reentrenamiento ni ajuste fino. Para lograr esto, introducimos un conjunto de tokens de calibración como un mecanismo adaptativo ligero que ajusta las incrustaciones latentes para lograr la alineación. Nuestra hipótesis es que al aprovechar el espacio latente ya expresivo de los FMDE, podemos evitar los efectos negativos de la recalibración convencional o la proyección de mapas desde el espacio de la imagen a un marco de referencia estándar. Nuestro método utiliza aprendizaje autosupervisado y utiliza un gran conjunto de datos de imágenes en perspectiva disponible públicamente sin requerir imágenes de ojo de pez. Esto se logra recalibrando las imágenes en perspectiva a imágenes de ojo de pez y mejorando la consistencia entre las estimaciones durante el entrenamiento. Evaluamos el enfoque en entornos interiores y exteriores utilizando múltiples FMDE y descubrimos que superó consistentemente a los métodos más avanzados con un solo conjunto de tokens. El código está disponible en https://github.com/JungHeeKim29/calibration-token .
Al hacer que el modelo de estimación de profundidad monocular existente sea aplicable a las imágenes de ojo de pez, es posible ampliar varios campos de aplicación utilizando cámaras de ojo de pez.
◦
Adaptabilidad a imágenes de ojo de pez mediante tokens de corrección livianos sin necesidad de reentrenamiento ni ajustes.
◦
Lograr una adaptación eficiente y una reducción de artefactos mediante la manipulación del espacio latente sin transformación del espacio de la imagen.
◦
El método de aprendizaje autosupervisado permite aprender sin un conjunto de datos de imágenes de ojo de pez.
•
Limitations:
◦
Se requiere mayor investigación para determinar el rendimiento de generalización del token de corrección. También se requiere versatilidad en diversos modelos de cámaras ojo de pez y niveles de distorsión.
◦
El rendimiento del método propuesto puede depender de los FMDE y de los conjuntos de datos de imágenes en perspectiva utilizados.
◦
Es posible que se requiera una evaluación de rendimiento adicional utilizando conjuntos de datos de imágenes de ojo de pez reales.