Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SSA-COMET: ¿Los LLM superan las métricas aprendidas en la evaluación de la traducción automática para lenguas africanas con recursos insuficientes?

Created by
  • Haebom

Autor

Senyu Li, Jiayi Wang, Felermino DMA Ali, Colin Cherry, Daniel Deutsch, Eleftheria Briakou, Rui Sousa-Silva, Henrique Lopes Cardoso, Pontus Stenetorp, David Ifeoluwa Adelani

Describir

Para abordar los desafíos de la evaluación de la calidad de la traducción automática (TA) en lenguas africanas con recursos limitados, este estudio presenta un conjunto de datos de evaluación de TA anotado por humanos a gran escala (SSA-MTE) que abarca 14 pares de lenguas africanas. SSA-MTE contiene más de 73.000 anotaciones a nivel de oración del ámbito de las noticias, y desarrollamos métricas de evaluación mejoradas, basadas en referencias y sin referencias, SSA-COMET y SSA-COMET-QE, basadas en este conjunto de datos. También evaluamos enfoques basados ​​en indicaciones utilizando LLM de vanguardia como GPT-4o, Claude-3.7 y Gemini 2.5 Pro. Los resultados experimentales muestran que el modelo SSA-COMET supera significativamente a AfriCOMET y es competitivo con Gemini 2.5 Pro, especialmente para lenguas con recursos limitados como el twi, el luo y el yoruba. Todos los recursos utilizados en este estudio se publican bajo una licencia abierta.

Takeaways, Limitations

Takeaways:
Contribuyó a la investigación sobre la evaluación de la traducción automática de lenguas africanas mediante la creación de un conjunto de datos anotados por humanos a gran escala (SSA-MTE).
Desarrollo de métricas de evaluación mejoradas como SSA-COMET y SSA-COMET-QE.
Evaluación comparativa del rendimiento de LLM como GPT-4o, Claude-3.7 y Gemini 2.5 Pro, y análisis comparativo con SSA-COMET.
Demostrando el rendimiento superior de SSA-COMET en idiomas de bajos recursos como Twi, Luo y Yoruba.
Contribuir a la activación de la investigación proporcionando licencias abiertas para los resultados de investigación.
Limitations:
Datos limitados al dominio de las noticias.
El enfoque basado en LLM todavía no es el de mejor rendimiento (en comparación con Gemini 2.5 Pro).
Dependencia de un LLM específico.
En el futuro se necesitarán más pares de idiomas y extensiones de dominio.
👍