[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Revisando la confiabilidad en el punto de referencia de estimación de pose basada en razonamiento

Created by
  • Haebom

Autor

Junsu Kim, Naeun Kim, Jaeho Lee, Incheol Park, Dongyoon Han, Seungryul Baek

Describir

Este artículo aborda los problemas de reproducibilidad y calidad del modelo de referencia Estimación de Poses Basada en Razonamiento (RPE). El modelo RPE se utiliza ampliamente como estándar para evaluar modelos de lenguaje multimodales a gran escala (MLLM) que tienen en cuenta la pose. Sin embargo, se señala que requiere un proceso de coincidencia manual para obtener anotaciones GT precisas utilizando índices de imagen diferentes a los del conjunto de datos 3DPW original. También analizamos las limitaciones de calidad del modelo de referencia, como la superposición de imágenes, el desequilibrio de escenarios, las poses simples y las descripciones textuales ambiguas. Para abordar estos problemas, mejoramos las anotaciones GT y las publicamos en código abierto para facilitar la evaluación cuantitativa consistente y el avance del MLLM.

Takeaways, Limitations

Takeaways:
Aborda problemas de reproducibilidad en los puntos de referencia de RPE y proporciona anotaciones GT precisas para permitir evaluaciones cuantitativas justas y consistentes.
Mejorar la reproducibilidad y la transparencia de la investigación mediante la apertura de anotaciones GT mejoradas
Contribuir al desarrollo de futuros modelos de inferencia multimodal conscientes de la postura
Limitations:
Aún existen limitaciones fundamentales del parámetro RPE, como duplicación de imágenes, desequilibrio de escenarios, poses simples y descripciones de texto vagas.
Una mejor anotación de GT puede depender del juicio subjetivo del equipo de investigación y puede no ser una solución perfecta.
Falta de soluciones a los problemas fundamentales de diseño de los puntos de referencia
👍