[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

HATS: Conjunto de pruebas de analogía en hindi para evaluar el razonamiento en modelos lingüísticos amplios

Created by
  • Haebom

Autor

Ashray Gupta, Rohan Joseph, Sunny Rai

Describir

En este artículo, presentamos un novedoso conjunto de datos, el Conjunto de Pruebas de Analogía en Hindi (HATS), para evaluar el rendimiento en analogías en hindi. El HATS consta de 405 preguntas de opción múltiple extraídas de exámenes del gobierno indio y se utiliza para evaluar el rendimiento en analogías de diversos modelos lingüísticos. En este artículo, evaluamos programas de aprendizaje de larga duración (LLM) multilingües de vanguardia utilizando diversas estrategias de estímulo y un enfoque de cadena de pensamiento fundamentado en la teoría cognitiva, y sugerimos un método para mejorar el rendimiento del modelo en tareas de analogía en hindi. Los resultados experimentales muestran que el rendimiento del modelo es óptimo cuando se utilizan estímulos en inglés, independientemente de la estrategia de estímulo. Este estudio aborda la grave escasez de recursos para evaluar el rendimiento del razonamiento de los LLM en hindi.

Takeaways, Limitations

Takeaways:
Proporcionamos un nuevo conjunto de datos HATS para evaluar la capacidad de razonamiento LLM en idioma hindi.
Demostramos que el enfoque de cadena de pensamiento fundamentada contribuye a mejorar el rendimiento del modelo en el problema de inferencia en hindi.
Contribuye a evaluar la capacidad analógica de los LLM multilingües y a analizar su capacidad para generalizar entre idiomas.
Examinamos la eficacia de los estímulos en inglés y sugerimos direcciones para futuras investigaciones.
Limitations:
Actualmente, HATS se limita a las preguntas del examen del gobierno indio y es posible que no refleje completamente los diversos tipos de analogías en el idioma hindi.
El tipo y tamaño del LLM utilizado para la evaluación pueden ser limitados.
El hallazgo de que los estímulos en inglés son los más eficaces sugiere la necesidad de considerar el sesgo interlingüístico.
Se necesitan más investigaciones para explorar la generalización del enfoque de la cadena de pensamiento fundamentada.
👍