Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Dinámica web LLM: Seguimiento del colapso del modelo en una red de LLM

Created by
  • Haebom

Autor

Tianyu Wang, Akira Horiguchi, Lingyou Pang, Carey E. Priebe

Describir

Este artículo argumenta que el creciente uso de datos sintéticos de la Internet abierta ha incrementado la eficiencia de los datos para el entrenamiento de modelos lingüísticos a gran escala (LLM), pero la amenaza potencial de colapso del modelo no se ha estudiado suficientemente. Los estudios existentes han investigado principalmente el colapso del modelo en un entorno de un solo modelo o se han basado únicamente en sustitutos estadísticos. Este estudio presenta LLM Web Dynamics (LWD), un marco eficiente para investigar el colapso del modelo a nivel de red. Mediante la simulación de Internet mediante una base de datos de generación aumentada por búsqueda (RAG), analizamos los patrones de convergencia de las salidas del modelo y proporcionamos garantías teóricas sobre dicha convergencia por analogía con modelos de mezcla gaussiana en interacción.

Takeaways, Limitations

Takeaways: Se presenta un marco eficiente (LWD) para analizar el fenómeno de colapso del modelo LLM a nivel de red. El patrón de convergencia de la salida del modelo puede analizarse mediante simulación en internet utilizando la base de datos RAG. Se presenta la base teórica mediante la inferencia del modelo de mezcla gaussiana.
Limitations: Actualmente, podría ser necesaria una validación adicional de la precisión de las simulaciones en internet realizadas con la base de datos RAG con respecto al mundo real. Podría ser necesario un análisis claro del alcance y las limitaciones de la inferencia del modelo de mezcla gaussiana. Se requiere la generalización a diversas arquitecturas LLM y datos de entrenamiento.
👍