Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje robusto de múltiples vistas mediante la fusión de la representación de la atención a nivel de muestra y la alineación de la perturbación simulada

Created by
  • Haebom

Autor

Jie Xu, Na Zhao, Gang Niu, Masashi Sugiyama, Xiaofeng Zhu

Describir

En este artículo, proponemos un método robusto de aprendizaje multivista (RML) que fusiona y alinea representaciones simultáneamente para superar las limitaciones del aprendizaje multivista (MVL) que integra diversos tipos de datos. RML utiliza una red de fusión de transformadores multivista para transformar datos multivista heterogéneos en incrustaciones de palabras homogéneas y obtener representaciones fusionadas mediante un mecanismo de atención a nivel de muestra. Además, proponemos un marco de aprendizaje contrastivo multivista que utiliza perturbación basada en simulación para simular condiciones de datos incompletos y alinea dos representaciones fusionadas obtenidas de datos ruidosos y datos no disponibles mediante aprendizaje contrastivo para aprender representaciones discriminativas y robustas. RML es un método de aprendizaje autosupervisado y puede utilizarse como un módulo listo para usar para la agrupación en clústeres no supervisada multivista, la clasificación de etiquetas ruidosas y la búsqueda hash intermodal. Los resultados experimentales verifican la eficacia de RML.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo método MVL para integrar eficazmente datos heterogéneos de múltiples vistas.
Aprendizaje de representación robusta para datos ruidosos e incompletos
Método de aprendizaje autosupervisado, sin necesidad de datos de etiquetas separados
Aplicable a diversas tareas posteriores (agrupamiento no supervisado, clasificación de etiquetas ruidosas, búsqueda hash intermodal)
Disponible como módulo plug-and-play
Limitations:
Falta de análisis del coste computacional y la complejidad del método propuesto.
Se necesita una mayor validación del rendimiento de generalización para varios tipos de ruido y datos incompletos.
Existe un sesgo potencial para ciertos tipos de datos de múltiples vistas
Posible falta de diversidad en el conjunto de datos experimentales (se necesita validación con conjuntos de datos diversos adicionales)
👍