[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Réexamen de la fiabilité dans le benchmark d'estimation de pose basé sur le raisonnement

Created by
  • Haebom

Auteur

Junsu Kim, Naeun Kim, Jaeho Lee, Incheol Park, Dongyoon Han, Seungryul Baek

Contour

Cet article aborde les problèmes de reproductibilité et de qualité du benchmark d'estimation de pose basée sur le raisonnement (RPE). Ce benchmark est largement utilisé comme référence pour l'évaluation des modèles de langage multimodaux à grande échelle (MLLM) sensibles à la pose. Cependant, nous soulignons qu'il nécessite un processus de mise en correspondance manuelle pour obtenir des annotations GT précises à partir d'indices d'image différents de ceux du jeu de données 3DPW d'origine. Nous analysons également les limites de la qualité du benchmark, telles que le chevauchement des images, le déséquilibre des scénarios, les poses simples et les descriptions textuelles ambiguës. Pour résoudre ces problèmes, nous améliorons les annotations GT et les rendons open source afin de faciliter une évaluation quantitative cohérente et l'avancement des MLLM.

Takeaways, Limitations

Takeaways:
Résout les problèmes de reproductibilité dans les benchmarks RPE et fournit des annotations GT précises pour permettre des évaluations quantitatives justes et cohérentes
Améliorer la reproductibilité et la transparence de la recherche grâce à des annotations GT améliorées et open source
Contribuer au développement de futurs modèles d'inférence multimodale tenant compte de la posture
Limitations:
Des limitations fondamentales du benchmark RPE existent toujours, telles que la duplication d’images, le déséquilibre des scénarios, les poses simples et les descriptions de texte vagues.
L’amélioration de l’annotation GT peut dépendre du jugement subjectif de l’équipe de recherche et peut ne pas être une solution parfaite.
Manque de solutions aux problèmes fondamentaux de conception des benchmarks
👍