Este artículo aborda los problemas de reproducibilidad y calidad del modelo de referencia Estimación de Poses Basada en Razonamiento (RPE). El modelo RPE se utiliza ampliamente como estándar para evaluar modelos de lenguaje multimodales a gran escala (MLLM) que tienen en cuenta la pose. Sin embargo, se señala que requiere un proceso de coincidencia manual para obtener anotaciones GT precisas utilizando índices de imagen diferentes a los del conjunto de datos 3DPW original. También analizamos las limitaciones de calidad del modelo de referencia, como la superposición de imágenes, el desequilibrio de escenarios, las poses simples y las descripciones textuales ambiguas. Para abordar estos problemas, mejoramos las anotaciones GT y las publicamos en código abierto para facilitar la evaluación cuantitativa consistente y el avance del MLLM.