Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

PRELUDIO: Un punto de referencia diseñado para exigir comprensión global y razonamiento en contextos extensos

Predicador: Sistema de agencia de papel a video

Alucinación vs. interpretación: repensando la precisión y exactitud en la extracción de datos asistida por IA para la síntesis de conocimiento

Pronóstico meteorológico descentralizado mediante aprendizaje automático distribuido y validación de modelos basados en blockchain

La IA sesgada mejora la toma de decisiones humanas pero reduce la confianza

Traducción de características personalizadas para el reconocimiento de expresiones: un método eficiente de adaptación de dominios sin fuente

Un marco neurosimbólico para la detección interpretable de ataques cognitivos en realidad aumentada

IAD-R1: Refuerzo del razonamiento consistente en la detección de anomalías industriales

EvaDrive: Optimización de políticas adversarias evolutivas para la conducción autónoma de extremo a extremo

Comprender teóricamente el aprendizaje en contexto basado en transformadores para optimizar CSMA

ASPD: Desbloqueo de la decodificación adaptativa serie-paralelo mediante la exploración del paralelismo intrínseco en LLM

BiasGym: Fantásticos sesgos en los LLM y cómo encontrarlos (y eliminarlos)

Yan: Generación fundamental de vídeo interactivo

M3-Net: Un modelo rentable basado en MLP sin gráficos para la predicción del tráfico

Redes de área corporal inalámbricas adaptativas y listas para 6G impulsadas por LLM: Estudio y marco

La ilusión del progreso: reevaluación de la detección de alucinaciones en los LLM

Sobre la comprensión de la dinámica de la capacidad del modelo en el aprendizaje continuo

WeChat-YATT: Un entrenador de RLHF simple, escalable y equilibrado

Generación mejorada de titulares personalizados mediante la eliminación de ruido de intereses falsos de comentarios implícitos

Aprendizaje curricular dinámico consciente de la dureza para un reconocimiento sólido de emociones multimodales con modalidades faltantes

Ecos de la automatización: el creciente uso de LLM en la elaboración de noticias

SIFThinker: Enfoque de imágenes con conciencia espacial para el razonamiento visual

Shuffle-R1: Marco de aprendizaje dinámico eficiente para modelos de lenguaje multimodales de gran tamaño mediante Shuffle dinámico centrado en datos

Hacia una IA agente encarnada: revisión y clasificación de la autonomía e interacción de robots impulsados por LLM y VLM

Posición: ¡El modelo actual de conferencias de IA es insostenible! Diagnóstico de la crisis de las conferencias de IA centralizadas.

MSC: Un conjunto de datos de vídeo de vida silvestre marina con segmentación terrestre y subtítulos a nivel de clip

Modelos lingüísticos de autocuestionamiento

Explorando la aplicación de la respuesta visual a preguntas (VQA) para el monitoreo de actividades en el aula

Oranits: Asignación de misiones y descarga de tareas en sistemas de información de transmisión (ITS) basados en RAN abierto mediante metaheurística y aprendizaje de refuerzo profundo

DeepWriter: Un asistente de escritura multimodal basado en hechos y en una base de conocimientos sin conexión

Selección de núcleos proporcionales a la clase para datos separables por dificultad

Preguntas y respuestas sobre el espacio en el almacén con el agente LLM

CodeJudgeBench: Evaluación comparativa de LLM como juez para tareas de codificación

AmpLyze: un modelo de aprendizaje profundo para predecir la concentración hemolítica

EXAONE Path 2.0: Modelo de Fundamentos de Patología con Supervisión Integral

Pensamiento GLM-4.1V y GLM-4.5V: Hacia un razonamiento multimodal versátil con aprendizaje de refuerzo escalable

¿Por qué los programas de máster en derecho (LLM) de código abierto tienen dificultades con el análisis de datos? Un estudio empírico sistemático

Codificador automático de máscara de gráfico con reconocimiento de discrepancias

Ataques generativos conscientes de la estructura semántica para una mejor transferibilidad adversarial

Comparación cuantitativa de técnicas de ajuste fino para modelos de difusión latente preentrenados en la generación de imágenes SAR invisibles

PromptTSS: Un enfoque basado en indicaciones para la segmentación interactiva de series de tiempo con granularidad múltiple

15.500 segundos: Clasificación eficiente de UAV mediante EfficientNet y ajuste fino de peso ligero

Los ataques inmediatos revelan la eliminación superficial del conocimiento en los métodos de desaprendizaje

Poda de datos mediante maximización de la información

CCL-LGS: Aprendizaje de libros de códigos contrastivos para la dispersión gaussiana del lenguaje 3D

Preocupaciones de seguridad para modelos de lenguaje grandes: una encuesta

¿Está lista la optimización cuántica? Un esfuerzo hacia la compresión de redes neuronales mediante computación cuántica adiabática.

Desentrañando el CHAD iterativo

FreeKV: Mejora de la recuperación de caché KV para una inferencia LLM eficiente

LaDi-WM: Un modelo mundial basado en la difusión latente para la manipulación predictiva

Rotación ordenada por secuencia agrupada: optimización de la transformación de rotación para cuantificación gratuita

Bandidos multiarmados con presupuesto adaptable para IoT con restricciones dinámicas de recursos

Transformadores de visión en la agricultura de precisión: un estudio exhaustivo

Pronóstico de series temporales orientado a objetivos: Diseño del marco de base

CAPTURe: Evaluación del razonamiento espacial en modelos de lenguaje visual mediante el conteo de objetos ocluidos

FinSage: Un sistema RAG multiaspecto para la presentación de informes financieros y la respuesta a preguntas.

GraspClutter6D: Un conjunto de datos a gran escala del mundo real para una percepción y comprensión robustas en escenas desordenadas

Hiperflujo: La poda revela la importancia de los pesos

ToolACE-R: Entrenamiento iterativo basado en modelos y refinamiento adaptativo para el aprendizaje de herramientas

UniOcc: Un punto de referencia unificado para la previsión y predicción de la ocupación en la conducción autónoma

VectorFit: Ajuste fino adaptativo de vectores singulares y sesgados de modelos de base preentrenados

BitDecoding: Desbloqueo de núcleos tensoriales para LLM de contexto largo con caché KV de bajo bit

Análisis de sentimientos explicable con DeepSeek-R1: rendimiento, eficiencia y aprendizaje rápido

Aprendizaje continuo para múltiples modalidades

Avanzando con MAPF hacia el mundo real: un banco de pruebas realista multiagente escalable (SMART)

Fusión de LED: mitigación de conflictos de seguridad y utilidad en la fusión de modelos con ubicación-elección-disjunta

Impulso de la generalización entre problemas en un solucionador combinatorio neuronal basado en difusión mediante la adaptación del tiempo de inferencia

Intercambio rítmico: un paradigma bioinspirado para el aprendizaje adaptativo de cero disparos en redes neuronales

Medición de la diversidad en conjuntos de datos sintéticos

Modelado de retroalimentación retardada con funciones de influencia

Ruleta de despliegue: un enfoque de inferencia probabilística para el escalamiento en el tiempo de inferencia de LLM mediante métodos de Monte Carlo basados en partículas

CLoQ: Mejora del ajuste fino de LLM cuantificados mediante la inicialización de LoRA calibrada

Fleurs-SLU: Un referente multilingüe masivo para la comprensión del lenguaje hablado

EDO neuronales interpretables para el descubrimiento de redes reguladoras de genes bajo perturbaciones

Un transformador ligero con atención cruzada de fase únicamente para la autenticación biométrica invariante a la iluminación

Comprensión de los modelos de visión basados en transformadores mediante inversión

INSIGHT: Análisis explicable de imágenes médicas con supervisión débil

Visual SLAMMOT considerando múltiples modelos de movimiento

Un enfoque sin entrenamiento para la transferencia de estilos musicales con modelos de difusión latente

Optimización multiobjetivo en el espacio de diseño de CPU: la atención es todo lo que necesitas

DiRW: Aprendizaje de dígrafos con conocimiento de trayectoria para la heterofilia

Diversificación de comportamientos políticos con curiosidad conductual extrínseca

Verbalización de la memoria episódica mediante representaciones jerárquicas de la experiencia robótica a lo largo de la vida

Las redes neuronales se generalizan en datos de baja complejidad

Pruebas de consistencia basadas en el conocimiento de modelos lingüísticos grandes

Algoritmo de conjunto seguro implícito para el aprendizaje de refuerzo demostrablemente seguro

Un modelo explicable basado en transformadores para la detección de correos electrónicos de phishing: un enfoque de modelo de lenguaje amplio

Reducción de costos de comunicación para el conteo de subgrafos bajo privacidad diferencial local mediante funciones hash

Errores de cálculo y razonamiento matemático en modelos lingüísticos amplios

OpenCUA: Fundamentos abiertos para agentes de uso informático

Informe técnico del Compass-Thinker-7B

TextQuests: ¿Qué tan buenos son los LLM en videojuegos basados en texto?

Sobre la definición de inteligencia

Más allá de la precisión: cómo la sensibilidad metacognitiva de la IA mejora la toma de decisiones asistida por IA

LAPO: Internalización de la eficiencia del razonamiento mediante la optimización de políticas adaptativas a la longitud

FAIRGAME: un marco para el reconocimiento de sesgos de agentes de IA mediante la teoría de juegos

MedRep: Representación de conceptos médicos para modelos básicos de registros médicos electrónicos generales

Un optimizador de clave aleatoria para la optimización combinatoria

Entrenamiento cruzado federado de estudiantes para una generalización robusta en condiciones de heterogeneidad de datos

Aprovechamiento de modelos lingüísticos amplios para la toma de decisiones de relevancia en la recuperación de casos legales

BitDecoding: Desbloqueo de núcleos tensoriales para LLM de contexto largo con caché KV de bajo bit

Created by

Haebom

Autor

Dayou Du, Shijie Cao, Jianyi Cheng, Luo Mai, Ting Cao, Mao Yang

Describir

Este artículo propone BitDecoding, un novedoso sistema de inferencia que aprovecha cachés KV de bajo bit para abordar las crecientes demandas de memoria y ancho de banda de la inferencia de modelos de lenguaje a gran escala (LLM) de contexto largo. BitDecoding permite una decodificación eficiente de cachés KV de bajo bit mediante el aprovechamiento conjunto de núcleos CUDA y núcleos Tensor. Incluye técnicas como la derivación automática de diseños optimizados para el uso de núcleos Tensor y la descuantificación mediante estrategias de paralelización a nivel de warp. También proporciona soporte unificado del sistema mediante un módulo de transformación de consultas que admite diversas variantes de atención, un núcleo de cuantificación de alto rendimiento que admite el escalado por tensor y por canal utilizado en diversos algoritmos de cuantificación, y un núcleo de descuantificación con una canalización definida por software que coordina la ejecución de CUDA y núcleos Tensor. Las evaluaciones en RTX 4090, A100 y H100 demuestran que BitDecoding ofrece velocidades de decodificación hasta 7,5, 4,8 y 8,9 veces superiores a las de FP16 FlashDecoding-v2, y supera al sistema de vanguardia de baja tasa de bits QServe en hasta 4,3 veces. También se observan mejoras significativas en la generación de contextos largos, incluyendo una reducción de hasta 3 veces en la latencia de decodificación de un solo lote en LLaMA-3.1-8B con contextos de 128 000. El código está disponible en GitHub.

Takeaways, Limitations

•

Takeaways:

◦

Mejoramos significativamente el rendimiento de la decodificación de caché KV de bits bajos al aprovechar los núcleos CUDA y los núcleos Tensor en paralelo.

◦

Hemos construido un sistema integrado que proporciona compatibilidad con varios algoritmos LLM y de cuantificación.

◦

Hemos mejorado drásticamente la velocidad y la eficiencia de la inferencia LLM a largo plazo, aumentando su potencial para aplicaciones prácticas.

◦

Los resultados experimentales demuestran claramente la superioridad del método propuesto.

•

Limitations:

◦

Optimizado para una arquitectura de GPU específica, el rendimiento en otras arquitecturas puede variar.

◦

Tal vez se necesiten más investigaciones sobre el rendimiento de generalización de diferentes modelos LLM.

◦

Es necesaria una evaluación del rendimiento para longitudes de contexto mayores.

Ver PDF

Made with Slashpage