Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Transferencia de estructura: un cálculo basado en inferencias para la transformación de representaciones

Modelos básicos del Conjunto de Patología para MIDOG 2025, Tema 2: Clasificación de la mitosis atípica

AudioCodecBench: un punto de referencia integral para la evaluación de códecs de audio

Comprender el espacio es una ciencia exacta: solo los modelos de razonamiento avanzados pueden resolver tareas de comprensión espacial.

DaMoC: Selección eficiente del modelo de lenguaje grande óptimo para ajustar tareas de dominio basadas en datos y compresión de modelos

Técnicas modulares para la generación de datos sintéticos de contexto largo en el entrenamiento y la evaluación de modelos lingüísticos

EZhouNet: Un marco basado en redes neuronales gráficas e intervalos de anclaje para la detección de eventos de sonido respiratorio

AImoclips: Un punto de referencia para evaluar la transmisión de emociones en la generación de texto a música

Copiloto de tiempo

RL basado en modelos de primer orden mediante retropropagación desacoplada

Estudio piloto sobre IA generativa y pensamiento crítico en las aulas de educación superior

Beacon: Cuantización posterior al entrenamiento con selección de cuadrícula integrada

¿Está la inteligencia artificial transformando el panorama de la comunidad académica internacional de las geociencias?

Atención vectorizada con codificación aprendible para transformadores cuánticos

Trasplantar y luego regenerar: un nuevo paradigma para la ampliación de datos de texto

Sinergia de profundidad y amplitud en RLVR: Desbloqueo de las ganancias de razonamiento de LLM con exploración adaptativa

MultiGen: Generador de voz multilingüe para niños con LLM

StreetViewAI: Haciendo que Street View sea accesible mediante IA multimodal sensible al contexto

IA a nivel de calle: ¿Están los modelos de lenguaje de gran tamaño preparados para los juicios del mundo real?

El lenguaje de esquema conceptual KG-ER

¡Mucha moda! Multicondicionamiento para la generación de imágenes mediante la combinación de boceto y texto

Generación de vídeo condicional para una compresión de vídeo de alta eficiencia

TriCLIP-3D: Un marco unificado y eficiente en parámetros para la base visual 3D trimodal basado en CLIP

Clasificación detallada de fracturas de muñeca pediátricas teniendo en cuenta la demografía

Un análisis de los métodos de diferencia temporal de valores de acción que aprenden valores de estado

Descomposición de parámetros estocásticos

Autorregresivo vs. Flow-Matching: un estudio comparativo de paradigmas de modelado para la generación de texto a música

MiniCPM4: LLM ultraeficientes en dispositivos finales

Evaluación de la eficacia del razonamiento basado en LLM para la programación de tareas multiobjetivo en HPC

¿Cómo puedo publicar mis puntos de referencia de LLM sin revelar las verdaderas respuestas?

Optimización de la transferibilidad de módulos en superresolución de imagen única: evaluación de universalidad y bloques residuales de ciclo

Transformador de máscara transferible: segmentación semántica entre dominios con estimación de transferibilidad adaptativa a regiones

RBT4DNN: Pruebas de redes neuronales basadas en requisitos

Aprendizaje robusto de imitación fuera de línea mediante la unión de trayectorias a nivel estatal

Más allá de la holografía: los fundamentos de la gravedad cuántica entrópica del procesamiento de imágenes

Knighter: Transformación del análisis estático con comprobadores sintetizados por LLM

¡FRIDA al rescate! Análisis de la efectividad de los datos sintéticos en el razonamiento de sentido común basado en objetos para la respuesta ante desastres.

CoDiff: Modelo de difusión condicional para la detección colaborativa de objetos 3D

Aprendizaje rápido de palabras mediante el aprendizaje meta en contexto

Método de muestreo de incrustación de imágenes para subtítulos diversos

¿Es un modelo de base basado en imágenes naturales de gran tamaño superior a un modelo específico de retina para detectar enfermedades oculares y sistémicas?

Puntuación de valores atípicos basada en histograma extendido (EHBOS)

Un estudio sobre la recuperación de gráficos y la generación aumentada de modelos de lenguaje grandes personalizados

Rompiendo el cuello de botella del contexto en la predicción de series de tiempo largas

Defensa de los LVLM contra ataques visuales mediante supervisión de percepción parcial

ACING: Actor-Crítico para el Aprendizaje Instruccional en LLM de Caja Negra

Aprendizaje experiencial basado en Kolb para agentes generalistas con un rendimiento en ciencia de datos de Kaggle de nivel humano

Cuantificación del error de calibración en redes neuronales mediante teoría basada en evidencia

Entrenamiento robusto de modelos generativos implícitos para distribuciones multivariadas y de cola pesada con una pérdida estadística invariante

Aprendizaje a partir de 10 demostraciones: aprendizaje de políticas generalizable y eficiente con marcos de asequibilidad orientados

AutoPETIII: La Frontera del Rastreador. ¿Qué Frontera?

Red de secuencia de entrada larga para pronóstico de series temporales largas

FFHFlow: Generación de comprensión diestra, diversa y consciente de la incertidumbre mediante inferencia variacional de flujo

Unisolver: Transformadores de EDP condicionales hacia solucionadores de EDP neuronales universales

MTP: una abstracción de lenguaje tipificado por significado para la programación integrada con IA

Difusión de codificaciones de modelos de lenguaje para la generación de secuencias de proteínas

Transferencia de estilo a los cómics de Calvin y Hobbes mediante difusión estable

Autonomización, no automatización: actividades y necesidades de los verificadores de datos europeos como base para el diseño de sistemas de IA centrados en el ser humano

Verificación del plan para agentes de finalización de tareas incorporadas basados en LLM

EigenBench: una medida comparativa del comportamiento de la alineación de valores

Oyster-I: Más allá del rechazo: Alineación de seguridad constructiva para modelos lingüísticos responsables

Ampliación de FKG.in: Hacia una red de trazabilidad de reclamaciones alimentarias

DeepVIS: Uniendo el lenguaje natural y la visualización de datos mediante el razonamiento paso a paso

Teoría de la mente mediante inferencia activa: un marco para la cooperación entre múltiples agentes

CP-Bench: Evaluación de modelos de lenguaje grandes para modelado de restricciones

Axiomática de elecciones restringidas por órdenes lineales de conjuntos con mínimo como alternativa

Incitación guiada por DMN: un marco para controlar el comportamiento LLM

Base computacional de la toma de decisiones en simulación social en LLM

Ciencia en diferentes idiomas: evaluación de la traducción multilingüe de artículos científicos para el Máster en Derecho

Mejora de FKG.in: automatización del análisis de la composición de alimentos indios

WASP: Un enfoque de espacio-peso para detectar la espuria aprendida

Modelo de creencias transferibles en circuitos cuánticos

PIN: Un conjunto de datos intensivo en conocimiento para documentos multimodales emparejados e intercalados

(Ir)racionalidad en IA: estado del arte, desafíos de investigación y preguntas abiertas

Manual de inteligencia

ChronoGraph: un conjunto de datos de series temporales multivariadas basadas en gráficos del mundo real

Activaciones delta: una representación para modelos de lenguaje grandes y ajustados

DEXOP: Un dispositivo para la transferencia robótica de la manipulación humana diestra

Hacia una visión unificada del modelo de lenguaje grande después del entrenamiento

Sin pensamientos, solo IA: Las recomendaciones sesgadas de LLM limitan la intervención humana en la selección de currículos

IPA: Un marco de proyección de entrada que preserva la información para una adaptación eficiente del modelo de base

SSGaussian: Transferencia de estilo 3D consciente de la semántica y que preserva la estructura

Predicción de disponibilidad de estacionamiento mediante la fusión de datos de múltiples fuentes con un transformador espacio-temporal invertido mejorado con aprendizaje autosupervisado

PARCO: ASR contextual robusto aumentado con fonemas mediante desambiguación de entidades contrastivas

AUDETER: Un conjunto de datos a gran escala para la detección de audio deepfake en mundos abiertos

De editor a estimador de geometría densa

Aprendizaje de representación de entidades desacopladas para la clasificación de anuncios de Pinterest

Los hechos se desvanecen rápidamente: evaluación de la memorización de conocimientos médicos obsoletos en modelos de lenguaje extensos

HumAine-Chatbot: IA conversacional personalizada en tiempo real mediante aprendizaje por refuerzo

Aprendizaje por refuerzo para un control robusto del envejecimiento de sistemas de baterías de iones de litio con verificación formal basada en datos

Un estudio empírico de vulnerabilidades en paquetes de Python y su detección

¿Cuántos pacientes podríamos salvar con antecedentes de LLM?

Aprendizaje de la percepción activa mediante la optimización de preferencias autoevolutiva para la puesta a tierra de la GUI

MAGneT: Generación coordinada de sesiones sintéticas multiturno de asesoramiento en salud mental con múltiples agentes

VisioFirm: Herramienta multiplataforma de anotación asistida por IA para visión artificial

Cruzando la brecha entre especies: transferir el aprendizaje del habla a los sonidos animales

Conjunto YOLO para la detección multiespectral de defectos en componentes de turbinas eólicas mediante UAV

La atención como filtro adaptativo

TAGAL: Generación de datos tabulares utilizando métodos LLM de Agentic

Mejora de la recuperación de documentos técnicos para RAG

Optimización del servicio LLM con longitudes de prellenado y decodificación variables

Created by

Haebom

Autor

Meixuan Wang, Yinyu Ye, Zijie Zhou

Describir

Este artículo estudia el problema del procesamiento de solicitudes LLM con longitudes de prerrelleno y decodificación heterogéneas. En el servicio LLM, la longitud de prerrelleno corresponde a la longitud del mensaje de entrada y determina el uso inicial de memoria de la caché KV. La longitud de decodificación representa el número de tokens de salida generados secuencialmente, y cada token adicional incrementa el uso de memoria de la caché KV en una unidad. Dado un conjunto de n solicitudes, nuestro objetivo es programarlas y procesarlas para minimizar el tiempo total de finalización. Este artículo demuestra que este problema es NP-hard debido a la interacción entre la ubicación, las restricciones de ubicación, las relaciones de precedencia y el aumento lineal del uso de memoria. Analizamos las estrategias de programación FCFS y SF comúnmente utilizadas y demostramos que sus tasas de contención aumentan sublinealmente con las restricciones de memoria (una desventaja significativa en entornos reales con altas demandas de memoria). Para abordar este problema, proponemos un nuevo algoritmo basado en una nueva métrica de selección que forma lotes eficientemente a lo largo del tiempo y demostramos que este algoritmo logra una tasa de contención constante. Por último, desarrollamos y evaluamos varias variantes algorítmicas inspiradas en este enfoque, incluidas variantes de programación dinámica, métodos de búsqueda local y programadores basados en LP, y demostramos a través de simulaciones exhaustivas que superan la línea base estándar manteniendo la eficiencia computacional.

Takeaways, Limitations

•

Takeaways: Presentamos un nuevo algoritmo que puede mejorar drásticamente la eficiencia del procesamiento de solicitudes LLM y demostramos su eficacia mediante análisis teóricos y resultados experimentales. Una nueva métrica de selección que genera lotes eficientemente a lo largo del tiempo proporciona una solución práctica aplicable a sistemas de servicio LLM del mundo real. Diversas variaciones del algoritmo mejoran su aplicabilidad a diversos entornos.

•

Limitations: El rendimiento del algoritmo propuesto se basa en resultados de simulación. Su rendimiento en un entorno real de un sistema de servicio LLM requiere mayor verificación experimental. Podría ser necesario un análisis más profundo de la complejidad del algoritmo. Es posible que no se garantice un rendimiento óptimo para ciertos tipos de distribuciones de solicitudes.

Ver PDF

Made with Slashpage