Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Hulk: Un traductor universal de conocimiento para tareas centradas en el ser humano

Created by
  • Haebom

Autor

Yizhou Wang, Yixuan Wu, Weizhen He, Xun Guo, Feng Zhu, Lei Bai, Rui Zhao, Jian Wu, Tong He, Wanli Ouyang, Shixiang Tang

Describir

Hulk es el primer modelo de generalización multimodal centrado en el ser humano capaz de gestionar diversas tareas perceptivas centradas en el ser humano, incluyendo visión 2D y 3D, basadas en el esqueleto y tareas de visión-lenguaje. Los modelos centrados en el ser humano existentes presentan limitaciones, como su incapacidad para gestionar tareas 3D y de visión-lenguaje, y la necesidad de un ajuste fino específico para cada tarea. Para abordar estos desafíos, Hulk integra diversas cabezas específicas de la tarea en dos cabezas generales: una para representaciones discretas (p. ej., lenguaje) y otra para representaciones continuas (p. ej., coordenadas). Esta representación unificada permite a Hulk gestionar diversas tareas centradas en el ser humano con transformación de modalidad e integrar el conocimiento en una amplia gama de tareas. Una evaluación exhaustiva de 12 puntos de referencia que abarcan ocho tareas centradas en el ser humano demuestra la superioridad del método propuesto, logrando un rendimiento de vanguardia en 11 puntos de referencia. El código está disponible en https://github.com/OpenGVLab/Hulk .

Takeaways, Limitations

Takeaways:
Presentamos el primer modelo multimodal capaz de manejar diversas tareas de percepción centradas en el ser humano (visión 2D/3D, basada en esqueleto y lenguaje-visión) sin necesidad de ajustes específicos de la tarea.
La representación unificada a través de dos cabezas comunes permite la integración de conocimientos y la conversión de modalidades en diversas tareas.
Se logró un rendimiento de última generación en 11 de 12 puntos de referencia.
Ampliar la investigación y aumentar la usabilidad mediante la divulgación de código abierto.
Limitations:
La verificación del rendimiento de generalización es necesaria para tareas distintas a los puntos de referencia presentados actualmente.
Se necesita un análisis más profundo del tamaño del modelo y del costo computacional.
Se necesita más investigación para optimizar el rendimiento de tareas específicas.
👍