Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Atención a la brecha (lingüística): hacia la exploración de los límites numéricos y translingüísticos de los LVLM

Created by
  • Haebom

Autor

Somraj Gautam, Abhirama Subramanyam Penamakuri, Abhishek Bhandari, Gaurav Harit

Describir

MMCRICBENCH-3K es un sistema de evaluación comparativa de preguntas y respuestas visuales (VQA) para tarjetas de puntuación de críquet, diseñado para evaluar capacidades complejas de razonamiento numérico e interlingüe en imágenes tabulares semiestructuradas. Consta de 1463 imágenes sintéticas de tarjetas de puntuación en formatos ODI, T20 y Test, y 1500 pares de QA en inglés. Se divide en dos subconjuntos: MMCRICBENCH-E-1.5K, que contiene tarjetas de puntuación en inglés, y MMCRICBENCH-H-1.5K, que contiene tarjetas de puntuación en hindi visualmente similares. Todas las preguntas y respuestas se mantienen en inglés, lo que permite una evaluación controlada entre guiones. Esta tarea requiere razonamiento sobre datos numéricos estructurados, contexto multiimagen y conocimiento implícito del dominio. Los resultados experimentales muestran que incluso los LVLM más avanzados, como GPT-4o y Qwen2.5VL, presentan dificultades en el subconjunto de inglés y un rendimiento aún peor en el subconjunto de hindi. Esto pone de relieve las principales limitaciones en la comprensión de textos visuales con estructura definida, el razonamiento numérico y la generalización interlingüística. El conjunto de datos está disponible públicamente a través de Hugging Face ( https://huggingface.co/datasets/DIALab/MMCricBench) .

Takeaways, Limitations

Takeaways: Presentamos MMCRICBENCH-3K, un nuevo punto de referencia para evaluar el razonamiento numérico y multilingüe en imágenes tabulares semiestructuradas. Revelamos las limitaciones de los LVLM de vanguardia en la comprensión de textos visuales con estructura, el razonamiento numérico y la generalización multilingüe. Este conjunto de datos, disponible públicamente, facilita la investigación relacionada.
Limitations: El conjunto de datos se basa en datos sintéticos. Actualmente solo admite dos idiomas: inglés e hindi. Se limita al ámbito específico de las tarjetas de puntuación de críquet, por lo que se requiere mayor investigación para determinar su generalización.
👍