Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

GLM-4.1V-Thinking: Hacia un razonamiento multimodal versátil con aprendizaje de refuerzo escalable

Horus: Un protocolo para la delegación sin confianza en condiciones de incertidumbre

Reducción de la variabilidad de los métodos de aprendizaje de múltiples instancias para la patología digital

Posicionamiento de herramientas de IA para apoyar la práctica de reducción de daños en línea: aplicaciones y direcciones de diseño

DICE-BENCH: Evaluación de las capacidades de uso de herramientas de grandes modelos de lenguaje en diálogos multipartitos y de múltiples rondas

Las estructuras visuales ayudan al razonamiento visual: cómo abordar el problema de la vinculación en los VLM

BioPars: un modelo de lenguaje biomédico preentrenado para la minería de textos biomédicos en persa

TRACED: Aproximación del arrepentimiento consciente de la transición con co-aprendizaje para el diseño del entorno

Hacia evaluaciones de seguridad de la teoría de la mente en grandes modelos lingüísticos

Algoritmos justos con sondeo para bandidos multiarmados y multiagente

GraphGSOcc: Transformador de gráficos semántico-geométricos con desacoplamiento dinámico-estático para la predicción de ocupación basada en salpicadura gaussiana 3D

Secuestro de pantalla: envenenamiento visual de agentes VLM en entornos móviles

15.500 segundos: Clasificación eficiente de UAVs mediante PEFT y redes preentrenadas

Odometría de piernas LiDAR-IMU estrechamente acoplada con cinemática de piernas aprendida en línea que incorpora información táctil del pie

Las representaciones de series temporales para la clasificación se encuentran ocultas en transformadores de visión preentrenados

BIS Reasoning 1.0: El primer referente japonés a gran escala para el razonamiento silogístico inconsistente con las creencias

Sobre la imposibilidad fundamental del control de las alucinaciones en grandes modelos lingüísticos

Adaptación de la representación de reglas con distribución beta de cuatro parámetros para el aprendizaje de sistemas clasificadores

Desenfoque ciego en tiempo real para la observación de la Tierra: el enfoque de la misión IMAGIN-e

Ampliación de redes de resistencia líquida y capacitancia líquida para un modelado de secuencias eficiente

Incertidumbres autorreflexivas: ¿Conocen los LLM su distribución interna de respuestas?

FastMamba: Un acelerador Mamba de alta velocidad y eficiencia en FPGA con cuantificación precisa

Preentrenamiento de modelos de lenguaje de gran memoria con conocimiento interno y externo

Hacia una semántica universal con grandes modelos de lenguaje

Aitomia: Tu asistente inteligente para simulaciones químicas cuánticas y atómicas impulsadas por IA

Mejora de la robustez de las modalidades faltantes mediante el aprendizaje federado en clústeres

Percibir más allá de los antecedentes lingüísticos: mejorar la comprensión visual y la atención en modelos multimodales

Penalización LZ: una penalización de repetición basada en la teoría de la información para modelos de lenguaje autorregresivos

Hacia los modelos básicos de resonancia magnética cardíaca: representaciones visuales y tabulares integrales para la evaluación de todo el corazón y más allá

TARO: Alineación de representación adaptativa de pasos de tiempo con condicionamiento consciente del inicio para la síntesis sincronizada de video a audio

Bucles de entrenamiento recursivos en LLM: ¿Cómo las propiedades de los datos de entrenamiento modulan el cambio de distribución en los datos generados?

Real-is-Sim: Cerrando la brecha entre lo simulado y lo real con un gemelo digital dinámico

Concat-ID: Hacia una síntesis de vídeo universal que preserva la identidad

Cómo las arquitecturas metacognitivas recuerdan sus propios pensamientos: una revisión sistemática

SFO: Pilotaje de retroalimentación VLM para RL fuera de línea

Hacia chatbots educativos eficientes: evaluación comparativa de los marcos RAG

KatFishNet: Detección de texto coreano generado por LLM mediante análisis de características lingüísticas

Emparejamiento de distribuciones para el aprendizaje por transferencia autosupervisado

Un método de referencia para eliminar marcas de agua de imágenes invisibles mediante Deep Image Prior

HABILIDAD: Aprendizaje por imitación de puntos clave semánticos para una manipulación eficiente de datos generalizables

AirRadar: Infiriendo la calidad del aire a nivel nacional en China con redes neuronales profundas

Un marco para la minería de bots de comportamiento colectivo en MMORPG

Aprendizaje continuo con selección y olvido estratégico para la detección de intrusiones en la red

Una encuesta sobre la cuantificación de la incertidumbre de grandes modelos lingüísticos: taxonomía, desafíos de la investigación abierta y direcciones futuras

Una revisión de la cuantificación de la incertidumbre bayesiana en la segmentación de imágenes probabilística profunda

GenBFA: Un enfoque de optimización evolutiva para ataques de inversión de bits en LLM

De ida y vuelta: sobre la relación entre el ruido y las inversiones de imagen en los modelos de difusión

Evaluación unificada de alucinaciones a nivel de triplete para modelos de visión y lenguaje de gran tamaño

Aprendizaje contrastivo y desenredo adversarial para la comunicación semántica orientada a tareas y consciente de la privacidad

Interpretación panóptica no supervisada de espacios latentes en GAN mediante cuantificación vectorial de relleno espacial

NegMerge: Fusión de pesos consensuales de signos para el desaprendizaje automático

Modelos de difusión de SMILES a farmacocinética para el descubrimiento de fármacos con un profundo conocimiento molecular

Arrepentimiento sublineal para una clase de problemas de aprendizaje de refuerzo lineal-cuadrático en tiempo continuo

Sesgo de puerta trasera (B^2) en modelos de difusión estables

Seguimiento de instrucciones incorporadas en entornos desconocidos

Mejora de los modelos de consistencia con flujos aumentados por generador

OralBBNet: Segmentación dental guiada espacialmente de rayos panorámicos X-con valores a priori de cuadro delimitador

Creatividad divergente en humanos y grandes modelos lingüísticos

SpikeNAS: un marco de búsqueda de arquitectura neuronal rápida con capacidad de memoria para sistemas de IA integrados basados en redes neuronales.

Squat: Modelos de lenguaje cuantitativo pequeño al límite

Destilación de conjuntos de datos mediante la métrica de Wasserstein

El problema de la solución booleana desde la perspectiva de la lógica de predicados: versión extendida

¿Pueden los modelos lingüísticos extensos desarrollar razonamiento estratégico? Perspectivas post-entrenamiento derivadas del aprendizaje del ajedrez.

Las narrativas de planificación con conciencia mundial mejoran la visión amplia del modelo de lenguaje del planificador

Razonamiento sobre la incertidumbre: ¿Los modelos de razonamiento saben cuándo no saben?

MMLU-Reason: Evaluación comparativa de la comprensión y el razonamiento lingüístico multimodal en múltiples tareas

Adaptación de la evaluación probabilística de riesgos para la IA

Derrotando a los Transformers usando la Cognición Sintética

MedAgent-Pro: Hacia un diagnóstico médico multimodal basado en la evidencia mediante un flujo de trabajo agente-razonable

Uso de modelos lingüísticos amplios para categorizar situaciones estratégicas y descifrar las motivaciones detrás de los comportamientos humanos

ChartCoder: Modelo de lenguaje multimodal avanzado para la generación de gráficos a código

MCCoder: Optimización del control de movimiento con generación de código asistida por LLM y verificación rigurosa

DREAMS: Un marco de Python para entrenar modelos de aprendizaje profundo en datos de EEG con informes de tarjetas de modelo para aplicaciones médicas

Modelado de movilidad humana con actividades de coordinación de hogares con información limitada mediante LLM con recuperación aumentada

Combatiendo el sesgo de confirmación: un marco unificado de pseudoetiquetado para la alineación de entidades

AC-DiT: Transformador de difusión de coordinación adaptativo para manipulación móvil

Decodificación paralela con reconocimiento de localidad para una generación eficiente de imágenes autorregresivas

¿Qué tan bien comprende GPT-4o la visión? Evaluación de modelos de base multimodales en tareas estándar de visión artificial.

SpecCLIP: Alineación y traducción de mediciones espectroscópicas para estrellas

Adaptabilidad de los modelos ASR en idiomas de bajos recursos: un estudio comparativo de Whisper y Wav2Vec-BERT en bengalí

Exploración de un enfoque híbrido de aprendizaje profundo para la detección de anomalías en la facturación de proveedores de atención de salud mental: abordar la escasez de etiquetas mediante la detección de anomalías semisupervisada

Optimización integral de carteras grandes para minimizar la varianza con redes neuronales mediante limpieza de covarianza

Optimización de políticas adaptativas a gradientes: hacia la alineación multiobjetivo de grandes modelos lingüísticos

AI4Research: Un estudio sobre inteligencia artificial para la investigación científica

Hacia los autocodificadores básicos para la detección de anomalías en series temporales

Uniendo el diseño de interfaz de usuario y las interacciones de chatbots: aplicación de principios basados en formularios a agentes conversacionales

MGRADE: La puerta recurrente mínima se combina con las convoluciones de retardo para un modelado de secuencias ligero

MILP-SAT-GNN: Otro solucionador neuronal de SAT

Capacitar a los fabricantes con herramientas de IA que preservan la privacidad: un estudio de caso sobre aprendizaje automático que preserva la privacidad para resolver problemas del mundo real

Ajuste fino de LoRA sin GPU: un marco de metageneración eficiente en CPU para LLM

¿Cómo procesan los modelos visión-lenguaje la información conflictiva en distintas modalidades?

¿Son las representaciones de los transformadores de visión semánticamente significativas? Un estudio de caso en imágenes médicas.

Evaluación de la Conciencia de los Modelos Lingüísticos

MuRating: Un enfoque de selección de datos de alta calidad para el preentrenamiento de modelos lingüísticos multilingües de gran tamaño

BranchNet: Un marco de aprendizaje neurosimbólico para la clasificación estructurada de múltiples clases

Búsqueda completa basada en GPU para minimización no lineal sujeta a límites

Evaluación mejorada de modelos generativos con densidad y cobertura recortadas

Ajuste sin espiar: Privacidad demostrable y límites de generalización para la formación posterior al LLM

ECCV 2024 W-CODA: 1.er taller sobre percepción multimodal y comprensión de casos límite en la conducción autónoma

Hacia una IA conversacional culturalmente apropiada para la salud en el mundo mayoritario: Un estudio exploratorio con ciudadanos y profesionales en América Latina

Mejora de los modelos de consistencia con flujos aumentados por generador

Created by

Haebom

Autor

Thibaut Issenhuth, Sangchul Lee, Ludovic Dos Santos, Jean-Yves Franceschi, Chansoo Kim, Alain Rakotomamonjy

Describir

Este artículo analiza las diferencias entre la destilación de consistencia y el entrenamiento de consistencia, que son métodos de aprendizaje de modelos de consistencia, y propone un nuevo método para mejorar el rendimiento y la velocidad de convergencia del aprendizaje de consistencia mediante la superación de las diferencias. El modelo de consistencia es un modelo que imita el muestreo multietapa de la difusión basada en puntuaciones con un único paso hacia adelante de una red neuronal. Mientras que la destilación de consistencia convencional utiliza el campo de velocidad real aproximado por una red neuronal preentrenada, el aprendizaje de consistencia utiliza una estimación de Monte Carlo de una sola muestra del campo de velocidad. Este artículo muestra que la brecha entre los dos métodos debido a este error de estimación persiste, y para aliviarla, proponemos un nuevo flujo que pasa datos ruidosos a la salida del modelo de consistencia. Se ha demostrado que este flujo reduce la brecha mencionada anteriormente y el costo de transferencia de datos ruidosos.

Takeaways, Limitations

•

Takeaways:

◦

Acelerando la convergencia del aprendizaje de la consistencia.

◦

Mejora general del rendimiento del aprendizaje de la consistencia.

◦

Aumentar la comprensión teórica de las diferencias entre la destilación de consistencia y el aprendizaje de consistencia.

◦

Se presenta un nuevo método de aprendizaje de modelos de consistencia eficiente basado en flujo.

•

Limitations:

◦

Se necesitan experimentos adicionales para evaluar el rendimiento de generalización del método propuesto.

◦

Es necesaria una evaluación del rendimiento en varios conjuntos de datos y arquitecturas de modelos.

◦

Es necesario analizar el coste computacional del flujo propuesto.

Made with Slashpage