Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MSC: Un conjunto de datos de vídeo de vida silvestre marina con segmentación terrestre y subtítulos a nivel de clip

Created by
  • Haebom

Autor

Quang-Trung Truong, Yuk-Kwan Wong, Vo Hoang Kim Tuyen Dang, Rinaldi Gotama, Duc Thanh Nguyen, Sai-Kit Yeung

Describir

Este documento aborda el desafío de la comprensión de imágenes marinas, que se ve obstaculizada por la naturaleza dinámica del entorno marino, el movimiento de la cámara y la complejidad de las escenas subacuáticas. Los conjuntos de datos de subtítulos de imágenes existentes a menudo se centran en dominios generales o centrados en el ser humano, sin generalizar a la complejidad del entorno marino ni proporcionar información sobre la vida marina. Para abordar estas limitaciones, este documento propone un proceso de subtítulos de imágenes orientado a objetos marinos de dos etapas. Presentamos un punto de referencia integral para la comprensión de imágenes que aprovecha tres elementos (imagen, texto y máscaras de segmentación) para facilitar la justificación visual y la generación de subtítulos. Esto mejora la comprensión y el análisis de imágenes marinas, así como la generación de imágenes marinas. Además, destacamos la eficacia de la segmentación de imágenes para detectar transiciones significativas de objetos en los cambios de escena, lo que enriquece significativamente la semántica del contenido de los subtítulos. El conjunto de datos y el código están disponibles públicamente en https://msc.hkustvgd.com .

Takeaways, Limitations

Takeaways:
Proporcionar un nuevo conjunto de datos de referencia para comprender las imágenes del océano.
Se propone un proceso de subtitulado de imágenes orientado a objetos oceánicos de dos etapas.
Presentar la efectividad de detectar transiciones de objetos importantes en cambios de escena a través de la segmentación de imágenes.
Contribuir a la comprensión y el análisis de imágenes marinas y mejorar la producción de imágenes marinas.
Aumentar la reproducibilidad y escalabilidad de la investigación a través de conjuntos de datos y códigos abiertos.
Limitations:
Es necesaria una revisión más profunda del tamaño y la diversidad del conjunto de datos.
Es necesaria una evaluación más profunda del desempeño de generalización del proceso propuesto.
Posible sesgo hacia entornos marinos o tipos de objetos específicos.
Se necesita más investigación sobre la aplicabilidad y practicidad en entornos marinos reales.
👍