[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Evaluación de modelos lingüísticos multimodales amplios en la respuesta a preguntas de libros de texto educativos

Created by
  • Haebom

Autor

Hessa A. Alawwad, Anas Zafar, Areej Alhothali, Usman Naseem, Ali Alkhathlan, Amani Jamal

Describir

Este artículo es el primero en evaluar las capacidades de respuesta a preguntas de libros de texto (TQA) de los modelos de lenguaje multimodales a gran escala (MLLM) de última generación, LLaVA-1.5 y LLaMA 3.2-Vision, en el conjunto de datos CK12-QA. Para simular un entorno de aprendizaje del mundo real, introducimos un flujo de trabajo de generación aumentada (RAG) de recuperación multimodal que proporciona párrafos e imágenes relevantes de libros de texto como contexto. Los experimentos de disparo cero revelan que el contexto recuperado mejora el rendimiento de las preguntas basadas en texto de LLaVA, mientras que degrada significativamente la precisión de las preguntas basadas en imágenes de LLaMA 3.2-Vision del 74,07 % al 25,93 %, un fenómeno conocido como "interferencia catastrófica del contexto". Los experimentos de ajuste fino demuestran que LLaMA 3.2-Vision mejora el rendimiento mientras que LLaVA lo degrada, lo que demuestra los desafíos de la priorización modal y la integración del contexto en MLLM.

Takeaways, Limitations

Takeaways:
Proporciona la primera evaluación de las habilidades de respuesta a preguntas del libro de texto de MLLM.
Demostramos que una tubería RAG multimodal puede simular eficazmente entornos de aprendizaje del mundo real.
Encontramos un fenómeno llamado “interferencia contextual fatal” en MLLM, enfatizando la importancia del establecimiento de prioridades modal y la integración contextual.
Mostramos las diferencias de rendimiento según la arquitectura de MLLM y sugerimos futuras direcciones de investigación.
Proporciona un punto de referencia para el desarrollo de herramientas educativas basadas en IA.
Limitations:
El uso de un solo conjunto de datos CK12-QA puede resultar insuficiente para examinar la generalización.
El MLLM utilizado en la evaluación puede ser limitado.
Falta un análisis profundo de las causas del fenómeno de la “interferencia contextual fatal”.
👍