Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MSC: Un conjunto de datos de vídeo de vida silvestre marina con segmentación terrestre y subtítulos a nivel de clip

작성자
  • Haebom

Autor

Quang-Trung Truong, Yuk-Kwan Wong, Vo Hoang Kim Tuyen Dang, Rinaldi Gotama, Duc Thanh Nguyen, Sai-Kit Yeung

Describir

Las imágenes marinas presentan desafíos significativos para la comprensión de imágenes debido a la naturaleza dinámica de los objetos marinos y sus alrededores, el movimiento de la cámara y la complejidad de las escenas subacuáticas. Los conjuntos de datos de subtítulos de imágenes existentes, que se centran en dominios generales o centrados en el ser humano, a menudo no logran generalizar la complejidad del entorno marino ni obtener información sobre la vida marina. Para abordar estas limitaciones, este documento propone un proceso de subtítulos de imágenes orientado a objetos marinos de dos etapas. Presentamos un punto de referencia integral para la comprensión de imágenes que aprovecha tres elementos (imagen, texto y máscaras de segmentación) para facilitar la justificación visual y la generación de subtítulos, mejorando así la comprensión y el análisis de imágenes marinas, así como la generación de imágenes marinas. Además, destacamos la efectividad de la segmentación de imágenes para detectar transiciones significativas de objetos en cambios de escena, enriqueciendo significativamente la semántica del contenido de los subtítulos. El conjunto de datos y el código están disponibles públicamente en https://msc.hkustvgd.com .

Takeaways, Limitations

Takeaways:
Se presenta un nuevo conjunto de datos de referencia y un proceso de subtitulado de dos etapas para comprender las imágenes oceánicas.
Detección de transiciones importantes de objetos y enriquecimiento del significado de los subtítulos mediante la segmentación de imágenes
Contribuir a mejorar la comprensión y el análisis de las imágenes marinas y la creación de imágenes marinas.
Compartir la investigación y garantizar la reproducibilidad mediante conjuntos de datos y códigos abiertos.
Limitations:
Se necesita una revisión más profunda respecto del tamaño y la diversidad del conjunto de datos de referencia propuesto.
Es necesario evaluar el desempeño de generalización del ducto propuesto y su aplicabilidad a otros entornos marinos.
Se necesitan más investigaciones para determinar si refleja plenamente la complejidad del entorno marino real.
👍