Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Una revisión sistemática de la cocreatividad entre humanos y IA

DFVEdit: Vector de flujo delta condicional para edición de video de toma cero

Explorando las capacidades de los modelos de lenguaje de gran tamaño de Frontier para la investigación en energía nuclear

MUPA: Hacia un razonamiento agente multitrayectoria para la respuesta fundamentada a preguntas en vídeo

Sparse-Reg: Mejora de la complejidad de la muestra en el aprendizaje de refuerzo fuera de línea mediante Sparsity

FEAST: Un sistema flexible de asistencia a la hora de comer para la personalización en la naturaleza

¿Cómo los modelos gráficos probabilísticos y las redes neuronales gráficas miran los datos de red?

Los transformadores de visión no necesitan registradores capacitados

El ojo del juicio: análisis de la evaluación de los LLM en ruso con POLLUX

Maximizar la confianza por sí solo mejora el razonamiento

EasyDistill: Un conjunto completo de herramientas para la destilación eficaz de conocimientos de grandes modelos lingüísticos

Mejora de los resultados de LLM contra ataques de jailbreak con la integración de modelos expertos

Reorganización personalizada de objetos robóticos a partir del contexto de la escena

Los árboles impiden ver el bosque: invocar heurísticas y sesgos para provocar elecciones irracionales en los LLM

OpenTCM: un sistema LLM basado en GraphRAG para la recuperación y el diagnóstico de conocimientos de medicina tradicional china

Clasificadores de redes neuronales explícitos para datos no separables

USM-VC: Mitigación de la pérdida de timbre con el mapeo semántico universal de bloques residuales para la conversión de voz

Hacia una optimización adaptativa basada en la memoria para una recuperación mejorada y una generación aumentada

LoopGen: Generación de música en bucle sin entrenamiento

Detección automatizada de violaciones de atomicidad en sistemas a gran escala

RL alineado con la gramática y la jugabilidad para la generación de descripciones de juegos con LLM

IA generativa para la arquitectura de software: aplicaciones, desafíos y futuras tendencias

La cuantificación de los LLM no disminuye desproporcionadamente el rendimiento multilingüe

Heurísticas para herramientas de generación de recursos gráficos impulsadas por IA en procesos de diseño y desarrollo de juegos: un enfoque centrado en el usuario

Razonamiento colectivo entre estudiantes de maestría en derecho: un marco para la validación de respuestas sin verdad fundamental

Generación de códigos multivuelta mediante recompensas de un solo paso

Atención a nivel de ronda: un nuevo mecanismo de atención a nivel de ronda para acelerar la inferencia LLM

KITAB-Bench: Un punto de referencia multidominio integral para el reconocimiento óptico de caracteres (OCR) y la comprensión de documentos en árabe

AB-UPT: Escalado de sustitutos neuronales de CFD para simulaciones aerodinámicas automotrices de alta fidelidad mediante transformadores de física universal anclados y ramificados

MedRAG: Mejora de la generación aumentada por recuperación con razonamiento basado en gráficos de conocimiento para Healthcare Copilot

Minería de datos generativa con difusión guiada por cola larga

Aprovechamiento de problemas matemáticos de nivel olímpico en línea para la formación de LLM y la evaluación de resistencia a la contaminación

No más ventanas deslizantes: Segmentación eficiente de imágenes médicas 3D con muestreo de parches Top-k diferenciable

Liberación de modelos de lenguaje multimodales grandes mediante inconsistencia de Shuffle

Resumen de documentos extensos de extremo a extremo mediante almacenamiento en caché de gradiente

Refinando las estrategias de ajuste fino disperso conscientes de la prominencia para modelos de lenguaje

KNN-MMD: Detección inalámbrica entre dominios mediante alineación de distribución local

Pronóstico del tipo de cambio EUR/USD que incorpora minería de texto basada en modelos de lenguaje preentrenados y métodos de aprendizaje profundo

Planificación de rutas de cobertura multirobot a gran escala en cuadrículas con desconflicto de rutas

Exploración dinámica y adaptativa del espacio de rangos para un análisis eficiente de sentimientos con modelos lingüísticos extensos

Ajuste de instrucciones federadas con uso eficiente de datos para modelos de lenguaje grandes

QT-DoG: Entrenamiento consciente de la cuantificación para la generalización del dominio

Prueba de modelos causales con variables ocultas en retardo polinomial mediante independencias condicionales

Estabilidad de la dinámica de flujo de gradiente primario-dual para problemas de optimización convexa multibloque

LRP4RAG: Detección de alucinaciones en la generación aumentada por recuperación mediante propagación de relevancia por capas

La mamba en la llama: destilando y acelerando modelos híbridos

Pronóstico del tipo de cambio EUR-USD basado en la fusión de información con modelos de lenguaje amplios y métodos de aprendizaje profundo

Optimización adaptativa dinámica para un análisis de sentimientos eficaz y un ajuste preciso en modelos lingüísticos de gran tamaño

Mitigación de las emisiones de carbono metropolitanas con conducción ecológica dinámica a gran escala

CAPM: Verificación rápida y robusta en CNN basada en Maxpool a través de red dual

MimicMotion: Generación de videos de movimiento humano de alta calidad con guía de poses que prioriza la confianza

De la calidad de datos para IA a la IA para la calidad de datos: una revisión sistemática de herramientas para la gestión de la calidad de datos aumentada por IA en almacenes de datos

FuzzAug: Aumento de datos mediante fuzzing guiado por cobertura para la generación de pruebas neuronales

RLSF: Ajuste de los LLM mediante retroalimentación simbólica

Una encuesta sobre el análisis de patentes: del PNL a la IA multimodal

Mejora de la robustez de la detección de objetos: detección y restablecimiento de la confianza en presencia de ataques de parches adversarios

El entrenamiento de consistencia aumentada con sesgo reduce el razonamiento sesgado en la cadena de pensamiento

Programación de procesos colectivos distribuidos en el cálculo de intercambio

Aprendizaje federado heterogéneo eficiente en la comunicación con impulso generalizado de bola pesada

Equidad y sesgo en la contratación algorítmica: una encuesta multidisciplinaria

Sobre fórmulas CNF irredundantes con respecto a la propagación de la cláusula unitaria

CANCIÓN: Gráficos neuronales autoorganizados

Mobile-R1: Hacia el aprendizaje de refuerzo interactivo para agentes móviles basados en VLM mediante recompensas a nivel de tarea

KunLunBaizeRAG: Mejora del rendimiento de la inferencia impulsada por aprendizaje de refuerzo para modelos lingüísticos de gran tamaño

FEAT: Un conjunto de datos de retroalimentación de preferencias mediante un marco rentable de generación automática y etiquetado para la tutoría de inglés con IA

Intercambio dinámico de conocimientos y revisión de doble diversidad: cómo aprovechar al máximo el potencial de un equipo de investigación multiagente

PhysUniBench: Un punto de referencia para el razonamiento en física de nivel de pregrado en modelos multimodales

De la psicología humana a la psicología de las máquinas: un marco conceptual para comprender el bienestar en grandes modelos lingüísticos

La ilusión del SWE-Bench: cuando los LLM de vanguardia recuerdan en lugar de razonar

VLM@school - Evaluación de la comprensión de imágenes por IA en el conocimiento de la escuela secundaria alemana

El imperativo de la IA: escalar la revisión por pares de alta calidad en el aprendizaje automático

Hacia sistemas de datos centrados en la semántica empresarial y asistidos por agentes de IA

ScienceBoard: Evaluación de agentes autónomos multimodales en flujos de trabajo científicos realistas

$C^3$-Bench: El agente multitarea basado en LLM de Things Real Disturbing

StarFT: Ajuste fino robusto de modelos de disparo cero mediante alineación de espuriosidad

REMOR: Generación automatizada de revisiones por pares con razonamiento LLM y aprendizaje por refuerzo multiobjetivo

La inteligencia artificial epistémica es esencial para que los modelos de aprendizaje automático realmente «sepan cuando no saben»

Equivalencia local de Markov y descubrimiento causal local para identificar efectos directos controlados

Adaptación de la evaluación probabilística de riesgos para la IA

De lo superficial a lo profundo: Integración del conocimiento externo para la generación de preguntas de seguimiento mediante Knowledge Graph y LLM

¿Más amplio o más profundo? Escalado del cálculo en tiempo de inferencia LLM con búsqueda adaptativa de árboles de ramificación

SENSEI: Exploración semántica guiada por modelos fundamentales para aprender modelos del mundo versátiles

OS-Genesis: Automatización de la construcción de trayectorias de agentes GUI mediante síntesis de tareas inversas

Resolución de problemas mediante la cooperación basada en preferencias entre humanos e IA

CRAB: Referencia de agentes multientorno para agentes de modelos de lenguaje multimodal

CLoVE: Aprendizaje federado personalizado mediante la agrupación de incrustaciones de vectores de pérdida

Informe técnico de HyperCLOVA X THINK

Eliminación de neblina en imágenes de microscopía óptica con coincidencia de flujo condicional guiada: encontrar el equilibrio perfecto entre fidelidad y realismo

QuickSilver: Aceleración de la inferencia LLM mediante detención dinámica de tokens, omisión de KV, fusión de tokens contextuales y cuantificación Matryoshka adaptativa

Aprendizaje contrastivo multivista para una adaptación robusta del dominio en el análisis de series temporales médicas

Hacia arquitecturas neuronales distribuidas

¿Pueden los modelos multimodales de vídeo grandes pensar como escépticos o redoblar esfuerzos? Un estudio sobre la implicación de vídeo revocable

Optimalidad probabilística para el escalamiento en tiempo de inferencia

Aprendizaje multimodal descentralizado basado en gavillas para sistemas de comunicación inalámbrica de próxima generación

De tierra a aire: Robustez al ruido en transformadores de visión y CNN para la clasificación de vehículos basada en eventos con posibles aplicaciones en UAV

IA a nivel de concepto para telecomunicaciones: más allá de los grandes modelos lingüísticos

Un marco para el análisis de epidemias que preserva la privacidad a partir de múltiples fuentes

Un marco de aprendizaje profundo para la evaluación de daños en edificios utilizando VHR SAR y datos geoespaciales: demostración sobre el terremoto de Turquía de 2023

Búsqueda de equivalencias menos codiciosa

Un enfoque práctico para el ahorro de energía en dispositivos audibles mediante muestreo sub-Nyquist con extensión de ancho de banda

Hacia arquitecturas neuronales distribuidas

Created by

Haebom

Autor

Aditya Cowsik, Tianyu He, Andrey Gromov

Describir

Este artículo presenta un método para introducir y entrenar una arquitectura de red neuronal distribuida (DNA) en los dominios de visión y lenguaje. DNA se inicializa como una protoarquitectura que consiste en módulos tales como transformadores, MLPs, atención y enrutadores. Un token (o parche) puede pasar a través de una serie arbitraria de módulos en cualquier orden. DNA es una generalización natural de métodos dispersos tales como Mixture-of-Experts, Mixture-of-Depths y compartición de parámetros. Los patrones de computación y comunicación de los módulos DNA se aprenden de extremo a extremo durante el entrenamiento y dependen del contenido y contexto de cada token (o parche). Estos patrones pueden ser moldeados por requisitos adicionales para objetivos de optimización tales como eficiencia de computación/memoria o distribución de carga. Experimentalmente, demostramos que el DNA entrenado es competitivo con modelos de línea base densos en ambos dominios, y puede aprender eficiencia computacional/compartición de parámetros de los datos. Además, al analizar la conectividad de emergencia y los patrones computacionales del ADN entrenado, observamos que las rutas que siguen los tokens a través del modelo se distribuyen según una ley de potencia y mostramos que algunas rutas (o, equivalentemente, grupos de módulos) presentan especialización de emergencia. Finalmente, demostramos que el modelo aprende a asignar cálculos y parámetros de activación de forma interpretable.

Takeaways, Limitations

•

Takeaways:

◦

Presentamos una estructura generalizada para modelos dispersos a través de una arquitectura de red neuronal distribuida (DNA) y demostramos que se puede lograr eficiencia computacional y compartición de parámetros a través de ella.

◦

Demostramos que los patrones computacionales y de comunicación del ADN pueden aprenderse a partir de datos y moldearse según objetivos de optimización.

◦

Descubrimos que la conectividad y los patrones computacionales que surgen del ADN entrenado siguen una distribución de ley de potencia, lo que revela la especialización de los grupos de módulos.

◦

Nos aseguramos de que el modelo aprenda a asignar parámetros computacionales y de activación de una manera interpretable.

◦

Logra un rendimiento competitivo con modelos de línea base densos en los dominios de la visión y el lenguaje.

•

Limitations:

◦

Se necesitan más estudios para investigar la escalabilidad general de la arquitectura de ADN propuesta y su aplicabilidad a diversas tareas.

◦

Se necesita un análisis más profundo de la complejidad del proceso de entrenamiento del ADN y de la estabilidad del entrenamiento.

◦

Se necesita una investigación en profundidad sobre estrategias de optimización de arquitecturas de ADN para tareas o conjuntos de datos específicos.

◦

Falta de explicación teórica de la distribución de la ley de potencia y del mecanismo de especialización emergente.

Ver PDF

Made with Slashpage