Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

PRIX: Aprendiendo a planificar desde cero para la conducción autónoma de extremo a extremo

Swin-TUNA: Un novedoso enfoque PEFT para la segmentación precisa de imágenes de alimentos

EarthLink: Un agente de IA autoevolutivo para la ciencia del clima

Proxy de realidad: Interacciones fluidas con objetos del mundo real en realidad mixta mediante representaciones abstractas

Aprovechamiento de señales heterogéneas y de múltiples fuentes para la detección de fatiga

Bondad de pronunciación sin segmentación

Marco de estimación de pose relativa adaptativa con ajuste de ruido dual para maniobras de aproximación seguras

Coordinación compositiva para equipos multi-robot con modelos lingüísticos extensos

La difusión supera a la autorregresión en entornos con limitaciones de datos

El nuevo cuello de botella del LLM: una perspectiva sistémica sobre la atención latente y la mezcla de expertos

EndoControlMag: Ampliación robusta del movimiento vascular endoscópico con restablecimiento periódico de referencia y control jerárquico de doble máscara con reconocimiento de tejido

Redes neuronales de gráficos de larga y corta distancia y mejora del aprendizaje curricular para el reconocimiento de emociones en la conversación

Omni-Thinker: Escalamiento de la generalización entre dominios en LLM mediante aprendizaje a distancia multitarea con recompensas híbridas

GCC-Spam: Detección de spam mediante GAN, aprendizaje contrastivo y redes de similitud de caracteres

SDSC: Una métrica consciente de la estructura para el aprendizaje de la representación de señales semánticas

Los LLM multilingües no son pensadores multilingües: evidencia de la evaluación de analogías con hindi

Modulación de la atención dinámica de frecuencia para la predicción densa

Una encuesta sobre aprendizaje profundo para la resolución de problemas de geometría

Modelos de la Fundación EEG: Una revisión crítica del progreso actual y las direcciones futuras

Inversión-DPO: Post-entrenamiento preciso y eficiente para modelos de difusión

Un marco PBN-RL-XAI para descubrir una estrategia terapéutica de “golpe y fuga” en el melanoma

Prioridades de tareas: mejora de la evaluación del modelo al considerar todo el espacio de tareas posteriores

OrQstrator: Un marco impulsado por IA para la optimización avanzada de circuitos cuánticos

Un estudio exhaustivo de la clasificación de argumentos basada en LLM: desde LLAMA pasando por GPT-4o hasta Deepseek-R1

Indicadores mecanicistas de comprensión en modelos lingüísticos amplios

Adaptación del aprendizaje real a vídeos largos

Teleoperación bilateral rápida y aprendizaje por imitación mediante control de fuerza sin sensores mediante un modelo dinámico preciso

Autocodificadores enmascarados que perciben el corazón: revelando el sesgo de simplicidad en los análisis de ECG

SyncMapV2: Segmentación no supervisada robusta y adaptativa

Dinámica web LLM: Seguimiento del colapso del modelo en una red de LLM

¿Por qué se producen efectos de evaluación dependientes de la clase con la atribución de características de series temporales? Una investigación con datos sintéticos

Difuso y disperso: generación de imágenes con regularización de representación

LLM-D12: Una escala bidimensional de dependencias instrumentales y relacionales en grandes modelos lingüísticos

MambaNeXt-YOLO: Un modelo híbrido de espacio de estados para la detección de objetos en tiempo real

PALADIN: Huella neuronal robusta para modelos de difusión de texto a imagen

Aprendizaje de refuerzo en línea basado en resultados: algoritmos y límites fundamentales

Soluciones de aprendizaje automático integradas en una plataforma IoT de atención médica para la estratificación del riesgo de insuficiencia cardíaca

Más allá de la descomposición de bajo rango: un enfoque rápido para un aprendizaje eficiente en el dispositivo

Transformadores de visión en la agricultura de precisión: un estudio exhaustivo

PerceptionLM: Datos y modelos de acceso abierto para una comprensión visual detallada

Posición: Una teoría de la identificabilidad con base empírica acelerará la investigación sobre aprendizaje autosupervisado

LagKV: La información relativa al retraso de la caché KV indica qué tokens son importantes

Desencadenante sin rastro: Hacia un ataque de puerta trasera sigiloso en modelos de difusión de texto a imagen

Muestreo logit disperso: aceleración de la destilación del conocimiento en los LLM

Alineando la visión con el lenguaje: Construcción de gráficos de conocimiento multimodal sin anotaciones para un razonamiento mejorado en LLM

Adaptador Att: un adaptador de difusión T2I multiatributos, robusto y preciso, específico de dominio mediante un autocodificador variacional condicional

Cuando un gran modelo de visión y lenguaje se combina con imágenes de teledetección de gran tamaño: Poda de tokens guiada por texto de grueso a fino

Aprendizaje robusto de múltiples vistas mediante la fusión de la representación de la atención a nivel de muestra y la alineación de la perturbación simulada

Abordaje de la alucinación a partir de modelos condicionales para la reconstrucción de imágenes médicas con DynamicDPS

Aprendizaje automático cuántico en medicina de precisión y descubrimiento de fármacos: ¿Un cambio radical para los tratamientos personalizados?

Un modelo de lenguaje general para la identificación de péptidos

ExpliCa: Evaluación del razonamiento causal explícito en modelos lingüísticos amplios

EVEv2: Líneas de base mejoradas para modelos de visión y lenguaje sin codificador

Alineación LLM como optimización del recuperador: una perspectiva de recuperación de información

Pulse-PPG: Un modelo de código abierto de base PPG entrenado en campo para aplicaciones portátiles en entornos de laboratorio y de campo.

Mercado inmobiliario en línea

Aprendizaje y optimización integrados para la gestión de la congestión y la maximización de beneficios en el mercado eléctrico en tiempo real

Integración de evidencia en el diseño de sistemas de apoyo a la toma de decisiones basados en XAI e IA: un marco de medios y fines para usuarios finales en la construcción

Diseño de parámetros escalables para circuitos cuánticos superconductores con redes neuronales gráficas

Un estudio sobre la identificación de causalidad de eventos: taxonomía, desafíos, evaluación y perspectivas

Desclasificación de la máquina correctiva neuronal

Hacia una generalización médica multimodal universal en 3D mediante el aprendizaje de una representación invariante personalizada

Primitivas de variedad de movimiento diferenciables para la generación de movimiento reactivo bajo restricciones cinedinámicas

Ajuste fino de orden cero de LLM en subespacios aleatorios

RUMI: Hurgando con información mutua

Desclasificación de máquinas neuronales

VolDoGer: Conjuntos de datos asistidos por LLM para la generalización de dominios en tareas de visión y lenguaje

Detección de deriva conceptual no supervisada a partir de representaciones de aprendizaje profundo en tiempo real

Un marco de evaluación multifacético para evaluar datos sintéticos generados por grandes modelos lingüísticos

DualXDA: Hacia una atribución de datos dispersa, eficiente y explicable en grandes modelos de IA

Cuantificación de la singularidad y el carácter divisivo del discurso presidencial

DocTER: Evaluación de la edición de conocimiento basada en documentos

Aprendizaje de conceptos definibles en lógica de primer orden con conteo

Reconocimiento y obtención de perfiles de cruces simples débiles en árboles

Compliance Brain Assistant: IA conversacional y agente para asistir en tareas de cumplimiento en entornos empresariales

Aprendizaje de abstracciones temporales mediante homomorfismos variacionales en MDP abstractos inducidos por opciones

Cuando la autonomía se descontrola: preparándose para los riesgos de la colusión multiagente en los sistemas sociales

Un marco integrado de ingeniería rápida y gráficos de conocimiento multidimensionales para el análisis de disputas legales

DisMS-TS: Eliminación de características multiescala redundantes para la clasificación de series temporales

Corrompidos por el razonamiento: los modelos de lenguaje de razonamiento se convierten en oportunistas en los juegos de bienes públicos

Formación de haces y asignación de recursos para la minimización del retardo en sistemas OFDM asistidos por RIS

Influenciabilidad neurodivergente como solución contingente al problema de alineación de la IA

EducationQ: Evaluación de las capacidades docentes de los LLM mediante un marco de diálogo multiagente

SuperARC: una prueba agnóstica para inteligencia limitada, general y superinteligencia basada en los principios de compresión recursiva y probabilidad algorítmica

IPCGRL: Aprendizaje por refuerzo instruido por el lenguaje para la generación de niveles procedimentales

OR-LLM-Agent: Automatización del modelado y la resolución de problemas de optimización de investigación de operaciones con razonamiento LLM

El razonamiento químico en los LLM permite la planificación de síntesis con conciencia de estrategia y la elucidación del mecanismo de reacción.

BEARCUBS: Un referente para agentes web que utilizan ordenadores

De la hipótesis a la publicación: un estudio exhaustivo de los sistemas de apoyo a la investigación basados en IA

HPS: Muestreo de preferencias duras para la alineación de las preferencias humanas

Un método de recompensa diferenciada para algoritmos de toma de decisiones cooperativas de múltiples vehículos basados en aprendizaje de refuerzo

Recuperación de clases de órdenes causales con bases de conocimiento inconsistentes

Sobre la estructura de la procedencia de los juegos y sus aplicaciones

I-CEE: Adaptación de las explicaciones de los modelos de clasificación de imágenes a la experiencia del usuario

SIDA: Adaptación del dominio de disparo cero impulsada por imágenes sintéticas

Síntesis de software 3D guiada por representación intermedia expresiva de restricciones

Mudanza: colaboración entre humanos e IA con base física

SynC: Refinamiento del conjunto de datos de subtítulos de imágenes sintéticas con mapeo de uno a muchos para subtítulos de imágenes de disparo cero

Recuento aproximado de SMT más allá de dominios discretos

DRWKV: Enfoque en los bordes de los objetos para mejorar la imagen con poca luz

Plataforma de tejido fotónico para aceleradores de IA

Created by

Haebom

Autor

Jing Ding, Trung Diep

Describir

Este artículo presenta Photonic Fabric™ y Photonic Fabric Appliance™ (PFA), subsistemas de conmutación y memoria basados en tecnología óptica que ofrecen baja latencia, alto ancho de banda y bajo consumo energético. PFA integra memoria HBM3E de alto ancho de banda, conmutadores ópticos integrados en el módulo y DDR5 externa en un sistema encapsulado electroóptico 2.5D, que proporciona hasta 32 TB de memoria compartida y 115 Tbps de conmutación digital integral. Photonic Fabric™ permite el entrenamiento e inferencia distribuidos de IA para ejecutar estrategias paralelas de forma más eficiente. Elimina las limitaciones de la playa de silicio que limitan las relaciones memoria-cómputo fijas observadas en los diseños tradicionales de aceleradores XPU. Reemplazar la pila HBM local en una XPU con chiplets conectados a Photonic Fabric aumenta la capacidad de memoria y el ancho de banda, alcanzando niveles inalcanzables con HBM integrado únicamente. Presentamos CelestiSim, un simulador analítico ligero validado en sistemas NVIDIA H100 y H200, para evaluar el rendimiento y el ahorro de energía de LLM en PFA sin cambios significativos en el diseño del núcleo de la GPU. Los resultados de la simulación muestran que el uso de PFA logra una mejora del rendimiento de hasta 3,66x y una reducción de latencia de 1,40x en la inferencia LLM de 405B parámetros, una mejora del rendimiento de hasta 7,04x y una reducción de latencia de 1,41x en la inferencia LLM de 1T parámetros, y una reducción de energía del 60-90% en el movimiento de datos de la computación colectiva en todos los escenarios de entrenamiento LLM. Si bien estos resultados se presentan para GPU NVIDIA, pueden aplicarse de forma similar a otros diseños de aceleradores de IA (XPU) que comparten la misma limitación fundamental de una relación memoria-computación fija.

Takeaways, Limitations

•

Takeaways:

◦

Se presenta una nueva arquitectura basada en óptica que supera las limitaciones de las relaciones fijas entre memoria y capacidad de cálculo.

◦

Muestra potencial para mejorar significativamente la inferencia LLM y el rendimiento del aprendizaje y la eficiencia energética (hasta 7 veces más rendimiento, hasta un 90 % de ahorro de energía)

◦

Aplicabilidad a varios diseños de aceleradores de IA

◦

Evaluación eficiente del rendimiento posible con el simulador de análisis ligero CelestiSim

•

Limitations:

◦

Actualmente, se requiere una implementación y verificación real basada en los resultados de la simulación.

◦

Falta de análisis del coste y la complejidad de la PFA

◦

Se necesita más investigación sobre la generalización a varias arquitecturas XPU.

◦

Se necesita un análisis más profundo de la precisión y las limitaciones de CelestiSim.

Ver PDF

Made with Slashpage