Cet article aborde les problèmes de reproductibilité et de qualité du benchmark d'estimation de pose basée sur le raisonnement (RPE). Ce benchmark est largement utilisé comme référence pour l'évaluation des modèles de langage multimodaux à grande échelle (MLLM) sensibles à la pose. Cependant, nous soulignons qu'il nécessite un processus de mise en correspondance manuelle pour obtenir des annotations GT précises à partir d'indices d'image différents de ceux du jeu de données 3DPW d'origine. Nous analysons également les limites de la qualité du benchmark, telles que le chevauchement des images, le déséquilibre des scénarios, les poses simples et les descriptions textuelles ambiguës. Pour résoudre ces problèmes, nous améliorons les annotations GT et les rendons open source afin de faciliter une évaluation quantitative cohérente et l'avancement des MLLM.