Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Una revisión sistemática de la cocreatividad entre humanos y IA

DFVEdit: Vector de flujo delta condicional para edición de video de toma cero

Explorando las capacidades de los modelos de lenguaje de gran tamaño de Frontier para la investigación en energía nuclear

MUPA: Hacia un razonamiento agente multitrayectoria para la respuesta fundamentada a preguntas en vídeo

Sparse-Reg: Mejora de la complejidad de la muestra en el aprendizaje de refuerzo fuera de línea mediante Sparsity

FEAST: Un sistema flexible de asistencia a la hora de comer para la personalización en la naturaleza

¿Cómo los modelos gráficos probabilísticos y las redes neuronales gráficas miran los datos de red?

Los transformadores de visión no necesitan registradores capacitados

El ojo del juicio: análisis de la evaluación de los LLM en ruso con POLLUX

Maximizar la confianza por sí solo mejora el razonamiento

EasyDistill: Un conjunto completo de herramientas para la destilación eficaz de conocimientos de grandes modelos lingüísticos

Mejora de los resultados de LLM contra ataques de jailbreak con la integración de modelos expertos

Reorganización personalizada de objetos robóticos a partir del contexto de la escena

Los árboles impiden ver el bosque: invocar heurísticas y sesgos para provocar elecciones irracionales en los LLM

OpenTCM: un sistema LLM basado en GraphRAG para la recuperación y el diagnóstico de conocimientos de medicina tradicional china

Clasificadores de redes neuronales explícitos para datos no separables

USM-VC: Mitigación de la pérdida de timbre con el mapeo semántico universal de bloques residuales para la conversión de voz

Hacia una optimización adaptativa basada en la memoria para una recuperación mejorada y una generación aumentada

LoopGen: Generación de música en bucle sin entrenamiento

Detección automatizada de violaciones de atomicidad en sistemas a gran escala

RL alineado con la gramática y la jugabilidad para la generación de descripciones de juegos con LLM

IA generativa para la arquitectura de software: aplicaciones, desafíos y futuras tendencias

La cuantificación de los LLM no disminuye desproporcionadamente el rendimiento multilingüe

Heurísticas para herramientas de generación de recursos gráficos impulsadas por IA en procesos de diseño y desarrollo de juegos: un enfoque centrado en el usuario

Razonamiento colectivo entre estudiantes de maestría en derecho: un marco para la validación de respuestas sin verdad fundamental

Generación de códigos multivuelta mediante recompensas de un solo paso

Atención a nivel de ronda: un nuevo mecanismo de atención a nivel de ronda para acelerar la inferencia LLM

KITAB-Bench: Un punto de referencia multidominio integral para el reconocimiento óptico de caracteres (OCR) y la comprensión de documentos en árabe

AB-UPT: Escalado de sustitutos neuronales de CFD para simulaciones aerodinámicas automotrices de alta fidelidad mediante transformadores de física universal anclados y ramificados

MedRAG: Mejora de la generación aumentada por recuperación con razonamiento basado en gráficos de conocimiento para Healthcare Copilot

Minería de datos generativa con difusión guiada por cola larga

Aprovechamiento de problemas matemáticos de nivel olímpico en línea para la formación de LLM y la evaluación de resistencia a la contaminación

No más ventanas deslizantes: Segmentación eficiente de imágenes médicas 3D con muestreo de parches Top-k diferenciable

Liberación de modelos de lenguaje multimodales grandes mediante inconsistencia de Shuffle

Resumen de documentos extensos de extremo a extremo mediante almacenamiento en caché de gradiente

Refinando las estrategias de ajuste fino disperso conscientes de la prominencia para modelos de lenguaje

KNN-MMD: Detección inalámbrica entre dominios mediante alineación de distribución local

Pronóstico del tipo de cambio EUR/USD que incorpora minería de texto basada en modelos de lenguaje preentrenados y métodos de aprendizaje profundo

Planificación de rutas de cobertura multirobot a gran escala en cuadrículas con desconflicto de rutas

Exploración dinámica y adaptativa del espacio de rangos para un análisis eficiente de sentimientos con modelos lingüísticos extensos

Ajuste de instrucciones federadas con uso eficiente de datos para modelos de lenguaje grandes

QT-DoG: Entrenamiento consciente de la cuantificación para la generalización del dominio

Prueba de modelos causales con variables ocultas en retardo polinomial mediante independencias condicionales

Estabilidad de la dinámica de flujo de gradiente primario-dual para problemas de optimización convexa multibloque

LRP4RAG: Detección de alucinaciones en la generación aumentada por recuperación mediante propagación de relevancia por capas

La mamba en la llama: destilando y acelerando modelos híbridos

Pronóstico del tipo de cambio EUR-USD basado en la fusión de información con modelos de lenguaje amplios y métodos de aprendizaje profundo

Optimización adaptativa dinámica para un análisis de sentimientos eficaz y un ajuste preciso en modelos lingüísticos de gran tamaño

Mitigación de las emisiones de carbono metropolitanas con conducción ecológica dinámica a gran escala

CAPM: Verificación rápida y robusta en CNN basada en Maxpool a través de red dual

MimicMotion: Generación de videos de movimiento humano de alta calidad con guía de poses que prioriza la confianza

De la calidad de datos para IA a la IA para la calidad de datos: una revisión sistemática de herramientas para la gestión de la calidad de datos aumentada por IA en almacenes de datos

FuzzAug: Aumento de datos mediante fuzzing guiado por cobertura para la generación de pruebas neuronales

RLSF: Ajuste de los LLM mediante retroalimentación simbólica

Una encuesta sobre el análisis de patentes: del PNL a la IA multimodal

Mejora de la robustez de la detección de objetos: detección y restablecimiento de la confianza en presencia de ataques de parches adversarios

El entrenamiento de consistencia aumentada con sesgo reduce el razonamiento sesgado en la cadena de pensamiento

Programación de procesos colectivos distribuidos en el cálculo de intercambio

Aprendizaje federado heterogéneo eficiente en la comunicación con impulso generalizado de bola pesada

Equidad y sesgo en la contratación algorítmica: una encuesta multidisciplinaria

Sobre fórmulas CNF irredundantes con respecto a la propagación de la cláusula unitaria

CANCIÓN: Gráficos neuronales autoorganizados

Mobile-R1: Hacia el aprendizaje de refuerzo interactivo para agentes móviles basados en VLM mediante recompensas a nivel de tarea

KunLunBaizeRAG: Mejora del rendimiento de la inferencia impulsada por aprendizaje de refuerzo para modelos lingüísticos de gran tamaño

FEAT: Un conjunto de datos de retroalimentación de preferencias mediante un marco rentable de generación automática y etiquetado para la tutoría de inglés con IA

Intercambio dinámico de conocimientos y revisión de doble diversidad: cómo aprovechar al máximo el potencial de un equipo de investigación multiagente

PhysUniBench: Un punto de referencia para el razonamiento en física de nivel de pregrado en modelos multimodales

De la psicología humana a la psicología de las máquinas: un marco conceptual para comprender el bienestar en grandes modelos lingüísticos

La ilusión del SWE-Bench: cuando los LLM de vanguardia recuerdan en lugar de razonar

VLM@school - Evaluación de la comprensión de imágenes por IA en el conocimiento de la escuela secundaria alemana

El imperativo de la IA: escalar la revisión por pares de alta calidad en el aprendizaje automático

Hacia sistemas de datos centrados en la semántica empresarial y asistidos por agentes de IA

ScienceBoard: Evaluación de agentes autónomos multimodales en flujos de trabajo científicos realistas

$C^3$-Bench: El agente multitarea basado en LLM de Things Real Disturbing

StarFT: Ajuste fino robusto de modelos de disparo cero mediante alineación de espuriosidad

REMOR: Generación automatizada de revisiones por pares con razonamiento LLM y aprendizaje por refuerzo multiobjetivo

La inteligencia artificial epistémica es esencial para que los modelos de aprendizaje automático realmente «sepan cuando no saben»

Equivalencia local de Markov y descubrimiento causal local para identificar efectos directos controlados

Adaptación de la evaluación probabilística de riesgos para la IA

De lo superficial a lo profundo: Integración del conocimiento externo para la generación de preguntas de seguimiento mediante Knowledge Graph y LLM

¿Más amplio o más profundo? Escalado del cálculo en tiempo de inferencia LLM con búsqueda adaptativa de árboles de ramificación

SENSEI: Exploración semántica guiada por modelos fundamentales para aprender modelos del mundo versátiles

OS-Genesis: Automatización de la construcción de trayectorias de agentes GUI mediante síntesis de tareas inversas

Resolución de problemas mediante la cooperación basada en preferencias entre humanos e IA

CRAB: Referencia de agentes multientorno para agentes de modelos de lenguaje multimodal

CLoVE: Aprendizaje federado personalizado mediante la agrupación de incrustaciones de vectores de pérdida

Informe técnico de HyperCLOVA X THINK

Eliminación de neblina en imágenes de microscopía óptica con coincidencia de flujo condicional guiada: encontrar el equilibrio perfecto entre fidelidad y realismo

QuickSilver: Aceleración de la inferencia LLM mediante detención dinámica de tokens, omisión de KV, fusión de tokens contextuales y cuantificación Matryoshka adaptativa

Aprendizaje contrastivo multivista para una adaptación robusta del dominio en el análisis de series temporales médicas

Hacia arquitecturas neuronales distribuidas

¿Pueden los modelos multimodales de vídeo grandes pensar como escépticos o redoblar esfuerzos? Un estudio sobre la implicación de vídeo revocable

Optimalidad probabilística para el escalamiento en tiempo de inferencia

Aprendizaje multimodal descentralizado basado en gavillas para sistemas de comunicación inalámbrica de próxima generación

De tierra a aire: Robustez al ruido en transformadores de visión y CNN para la clasificación de vehículos basada en eventos con posibles aplicaciones en UAV

IA a nivel de concepto para telecomunicaciones: más allá de los grandes modelos lingüísticos

Un marco para el análisis de epidemias que preserva la privacidad a partir de múltiples fuentes

Un marco de aprendizaje profundo para la evaluación de daños en edificios utilizando VHR SAR y datos geoespaciales: demostración sobre el terremoto de Turquía de 2023

Búsqueda de equivalencias menos codiciosa

Un enfoque práctico para el ahorro de energía en dispositivos audibles mediante muestreo sub-Nyquist con extensión de ancho de banda

La mamba en la llama: destilando y acelerando modelos híbridos

Created by

Haebom

Autor

Junxiong Wang, Daniele Paliotta, Avner May, Alexander M. Rush, Tri Dao

Describir

Este artículo presenta un método para transformar modelos Transformer a gran escala en RNN lineales (p. ej., Mamba) para una implementación eficiente. Demostramos que es posible destilar conocimiento de Transformer en RNN lineales mediante la reutilización de pesos de proyección lineal de las capas de atención de Transformer utilizando recursos de GPU académicos. Construimos un modelo híbrido con pocas capas de atención, que logra un rendimiento similar al del Transformer original en benchmarks de chat y supera al modelo híbrido Mamba de código abierto entrenado con tokens masivos tanto en benchmarks de chat como generales. También presentamos un algoritmo de decodificación predictiva con reconocimiento de hardware que acelera la velocidad de inferencia de Mamba y los modelos híbridos. El modelo con mejor rendimiento, destilado de Llama3-8B-Instruct, alcanza una tasa de victorias controlada por longitud de 29.61 frente a GPT-4 en AlpacaEval 2 y una tasa de victorias de 7.35 en MT-Bench, superando al mejor modelo de RNN lineal ajustado por directivas a escala 8B. El modelo destilado presenta una extrapolación natural de la longitud y alcanza una precisión casi perfecta en una prueba de búsqueda de una aguja en un pajar con una longitud de 20x. El código y los puntos de control preentrenados están disponibles públicamente.

Takeaways, Limitations

•

Takeaways:

◦

Presentamos un método novedoso para implementar eficientemente modelos de transformadores a gran escala.

◦

Demostrar la viabilidad de crear modelos lineales basados en RNN que mantengan o superen el rendimiento de Transformer con recursos computacionales limitados.

◦

Aceleración de la inferencia con algoritmos de decodificación predictiva basados en hardware.

◦

Verificación del desempeño de extrapolación de longitud natural del modelo destilado.

◦

Proporciona código fuente abierto y puntos de control previamente entrenados.

•

Limitations:

◦

Dado que este es un resultado de investigación que utiliza recursos de GPU académicos, se necesita investigación adicional para su aplicación en entornos comerciales reales.

◦

Falta de descripción detallada del proceso de destilación y diseño del modelo híbrido (se requiere análisis adicional).

◦

Posibilidad de interpretar resultados sesgados hacia evaluaciones de desempeño para puntos de referencia específicos.

◦

Falta de mención clara de los recursos de la GPU utilizados.

Ver PDF

Made with Slashpage