Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

AC-DiT: Transformador de difusión de coordinación adaptativo para manipulación móvil

Optimización de recompensas de procesos autoguiados con ventaja gradual redefinida para el aprendizaje de refuerzo de procesos

La creación de hanzi como puentes narrativos: un taller de cocreación de inteligencia artificial para personas mayores migrantes

Actor-crítico blando distributivo con política de difusión

Skywork-Reward-V2: Escalabilidad de la curación de datos de preferencias mediante la sinergia entre humanos e IA

División rápida de modelos de IA en redes perimetrales

De oraciones a secuencias: repensando los lenguajes en sistemas biológicos

MTCNet: Aprendizaje guiado por consistencia de movimiento y topología para la segmentación de la válvula mitral en ecografía 4D

Horus: Un protocolo para la delegación sin confianza en condiciones de incertidumbre

Mezcla de razonamientos: enseñar a los modelos lingüísticos amplios a razonar con estrategias adaptativas

Evaluación comparativa de la manipulación bimanual generalizable: desafío de colaboración de doble brazo de RoboTwin en el taller MEIS de CVPR 2025

Red Teaming para IA generativa: informe sobre un ejercicio centrado en los derechos de autor realizado en un centro médico académico

AirV2X: Colaboración unificada aire-tierra de vehículo a todo

Ataques generativos conscientes de la estructura semántica para una mejor transferibilidad adversarial

Alineación de LLM congelados mediante aprendizaje de refuerzo: un enfoque iterativo de reponderar y luego optimizar

Distinguir la IA predictiva y generativa en la regulación

¿Es solo una encuesta? Uso de modelos lingüísticos extensos para codificar respuestas abiertas en alemán sobre motivación.

Restauración de imágenes con reconocimiento de texto mediante modelos de difusión

¿Qué tan buenas son las políticas de contraseñas generadas por LLM?

Hacia una comparación y alineación explicables de las incrustaciones de características

Huella de modelos basada en gradientes para la detección de similitudes LLM y la clasificación de familias

Impulsando una economía inteligente de baja altitud con una gran implementación de modelos de IA

Incorporación de LLM para la simulación de movilidad urbana compleja a gran escala

Generación de hipótesis de grafos causales dinámicos en neurociencia: aprovechamiento de modelos factoriales generativos de series temporales observadas

Viajando entre idiomas: evaluación comparativa de la coherencia interlingüística en programas de maestría en derecho multimodales

Modelado de amenazas para IA: el caso de un enfoque centrado en los activos

SoccerDiffusion: Hacia el aprendizaje integral del fútbol con robots humanoides a partir de grabaciones de partidas

PAD: Fusión de desacoplamiento de fase-amplitud para la clasificación multimodal de la cobertura terrestre

ÍNdices de significatividad para valores de concordancia

Sustitutos transferibles en espacios de búsqueda de arquitectura neuronal expresiva

Análisis del flujo de trabajo de quirófano que preserva la privacidad mediante gemelos digitales

Segmentación tumoral de grueso a fino guiada por incertidumbre con posprocesamiento que tiene en cuenta la anatomía

CMD-HAR: Desenredo intermodal para el reconocimiento de la actividad humana mediante dispositivos portátiles

Commander-GPT: Liberando al máximo la capacidad de detección de sarcasmo de los modelos lingüísticos multimodales de gran tamaño

Mitigación de sesgos basada en la comprensión para una segmentación justa de CMR

HAPI: Un modelo para aprender expresiones faciales de robots a partir de preferencias humanas

MaizeField3D: Un conjunto de datos de modelo procedimental y nube de puntos 3D de maíz cultivado en campo de un panel de diversidad.

Estimación de la dirección de la luz e iluminante mediante el método de distancia de Wasserstein

Límites fundamentales de la agregación jerárquica segura con asociación cíclica de usuarios

LLM - Predicción de hiperglucemia y descubrimiento de vías de tratamiento conductual a partir de dispositivos portátiles y dieta

Difusión de Gibbs entrelazada: generación de datos discretos-continuos con restricciones implícitas

EquiTabPFN: Redes ajustadas a priori equivalentes de permutación de objetivos

Ajuste de circuitos: un enfoque mecanicista para identificar redundancia de parámetros y ajustar redes neuronales

EigenLoRAx: Reciclaje de adaptadores para encontrar subespacios principales para una adaptación e inferencia eficientes en el uso de recursos

Aprendizaje de anomalías de tráfico a partir de modelos generativos en observaciones en tiempo real

Habilitación del paralelismo a nivel de población en la programación genética basada en árboles para una aceleración integral de GPU

Parámetros vs. FLOP: Leyes de escala para una escasez óptima en modelos de lenguaje de mezcla de expertos

Cuantificación de la importancia de la alineación de datos en el rendimiento del modelo posterior

Descubrimiento causal mejorado cuánticamente para un pequeño número de muestras

Sobre las caracterizaciones para la generación del lenguaje: interacción entre alucinaciones, amplitud y estabilidad

Preposición de tokens: un enfoque sin entrenamiento para obtener mejores incrustaciones de oraciones a partir de LLM

COEF-VQ: Comprensión rentable de la calidad del video a través de un marco LLM multimodal en cascada

GeMID: Modelos generalizables para la identificación de dispositivos IoT

La tarea de predicción del siguiente token asume un ordenamiento óptimo de datos para el entrenamiento LLM en la generación de pruebas

¿Es realmente complejo responder consultas complejas?

Navegación aérea mediante visión y lenguaje mediante razonamiento LLM guiado por representación semántica-topométrica

Aprendizaje de refuerzo fuera de línea para aprender a despachar para la programación de talleres de trabajo

Reconsiderando la eficiencia energética de las redes neuronales de punta

Explorando la integración de grandes modelos de lenguaje en procesos de mantenimiento de pruebas industriales

Entrenamiento previo con reconocimiento de secuencias para la guía del movimiento de la sonda en ecocardiografía

Modelos de base anatómica para resonancias magnéticas cerebrales

Aprendiendo de las etiquetas ruidosas generadas por crowdsourcing: una perspectiva de procesamiento de señales

Cuantificación de las discrepancias intersectoriales entre múltiples grupos mediante el análisis de clases latentes para lograr la equidad

Profundizando en la escritura asistida por LLM en publicaciones biomédicas a través del exceso de vocabulario

Hacia una nueva medida de la confianza del usuario en los sistemas XAI

Cómo evitar catástrofes en el aprendizaje en línea pidiendo ayuda

Mejora de la robustez del reconocimiento de entidades con nombre supervisado a distancia mediante el aprendizaje docente consciente de la incertidumbre y el aprendizaje colaborativo entre estudiantes

Más allá de la escala: el coeficiente de diversidad como métrica de calidad de datos para la variabilidad en datos de lenguaje natural

Aprendizaje por refuerzo inverso bayesiano de densidad de kernel

Agentes de IA encarnados: modelando el mundo

Mind2Web 2: Evaluación de la búsqueda agéntica con el agente como juez

Flujo de IA: perspectivas, escenarios y enfoques

Un marco para el razonamiento condicional en la programación de conjuntos de respuestas

Autoformalización en la era de los grandes modelos lingüísticos: un estudio

Observabilidad de procesos de IA agencial: Descubrimiento de la variabilidad del comportamiento

Informe del Índice de Inteligencia Artificial 2025

MAPS: Avanzando en el razonamiento multimodal en ciencias físicas de nivel experto

XGeM: Un modelo de base multipropósito para la generación de datos médicos multimodales

Optimización de preferencias directas mediante restricciones dispersas a nivel de características

Cognición no supervisada

Preentrenamiento y estímulo en regiones urbanas: un enfoque basado en gráficos

Generador de gráficos de carreteras: mapeo de carreteras en sitios de construcción a partir de datos GPS

Point3R: Reconstrucción 3D en tiempo real con memoria de puntero espacial explícita

LiteReality: Reconstrucción de escenas 3D con gráficos listos a partir de escaneos RGB-D

La correspondencia de respuestas supera a la opción de opción múltiple en la evaluación del modelo lingüístico

Subtipificación en DHOL: preimpresión extendida

MOTIF: Pensamiento modular mediante el ajuste fino del refuerzo en los LLM

USAD: Red de difusión de atención espacio-temporal de aumento de datos no supervisada

Precodificación basada en DNN en sistemas MIMO mmWave asistidos por RIS con desplazamiento de fase práctico

SynapseRoute: un marco de conmutación de ruta automática en un modelo de lenguaje grande de estado dual

Banco de autocorrección: Revelar y abordar el punto ciego de la autocorrección en los LLM

Análisis de escenas auditivas multiagente

Rápido y Simplex: Atención 2-Simplicial en Tritón

Sintetizable por diseño: un marco guiado por retrosíntesis para la generación de análogos moleculares

Atención lineal con contexto global: un mecanismo de atención multipolar para la visión y la física

Señales tempranas de capacidades esteganográficas en los LLM de vanguardia

Meta SecAlign: Una base segura para el aprendizaje profundo contra ataques de inyección rápida

FairHuman: Mejora de la calidad de las manos y los rostros en la generación de imágenes humanas con un retraso potencial mínimo. Equidad en modelos de difusión.

APT: Entrenamiento personalizado adaptativo para modelos de difusión con datos limitados

ASDA: Mecanismo de Atención Diferencial del Espectrograma de Audio para el Aprendizaje de Representaciones Autosupervisado

Rápido y Simplex: Atención 2-Simplicial en Tritón

Created by

Haebom

Autor

Aurko Roy, Timothy Chou, Sai Surya Duvvuri, Sijia Chen, Jiecao Yu, Xiaodong Wang, Manzil Zaheer, Rohan Anil

Describir

Este artículo presenta una arquitectura novedosa para mejorar la eficiencia de tokens considerando que los modelos de lenguaje a gran escala (LLM) están sujetos a restricciones de datos en lugar de computacionales. Proponemos un Transformador 2-simplicial que generaliza la atención convencional del producto escalar a una función trilineal y demostramos experimentalmente que logra una mayor eficiencia de tokens que el Transformador estándar mediante una implementación eficiente utilizando el kernel Triton. En particular, demostramos que los modelos de tamaño similar superan a los modelos basados en la atención del producto escalar con un presupuesto de tokens fijo para tareas de matemáticas, programación, razonamiento y lógica, y analizamos cuantitativamente el cambio exponencial de la ley de escalamiento para tareas de conocimiento y razonamiento.

Takeaways, Limitations

•

Takeaways:

◦

Destacamos la necesidad de arquitecturas LLM eficientes en términos de tokens y proponemos que el Transformer compuesto 2-simple es una solución prometedora para esto.

◦

Señalamos las limitaciones de las leyes de escalamiento existentes y mostramos la posibilidad de proponer nuevas leyes de escalamiento en entornos con restricciones de datos.

◦

Demostramos experimentalmente el rendimiento superior de dos transformadores complejos simples en tareas específicas que incluyen matemáticas, codificación, razonamiento y lógica.

•

Limitations:

◦

Se necesita más investigación para determinar si las mejoras de rendimiento de la arquitectura propuesta pueden generalizarse a todo tipo de tareas.

◦

Las implementaciones que dependen del kernel Triton pueden tener una generalidad limitada ya que dependen de entornos de hardware específicos.

◦

Se necesitan experimentos adicionales para verificar qué tan generales son los cambios en la ley de escala presentados en el artículo y si se aplican a otras arquitecturas.

Ver PDF

Made with Slashpage