Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Texto a SQL de extremo a extremo con selección de conjuntos de datos: aprovechamiento de LLM para la generación de consultas adaptativas

Fourier-VLM: Compresión de tokens de visión en el dominio de frecuencia para modelos de lenguaje de visión de gran tamaño

LAG: Generación aumentada lógicamente desde una perspectiva cartesiana

Eco: Desacoplamiento de la inferencia y el entrenamiento para la alineación RL a gran escala en enjambres heterogéneos

FDC-Net: Repensando la asociación entre la eliminación de artefactos EEG y la computación afectiva multidimensional

Equidad en la síntesis del habla disártrica: comprensión del sesgo intrínseco en la clonación del habla disártrica mediante F5-TTS

RCR-Router: Enrutamiento contextual eficiente y basado en roles para sistemas LLM multiagente con memoria estructurada

DS$^2$Net: Red de supervisión profunda semántica de detalles para la segmentación de imágenes médicas

LLMDistill4Ads: Uso de codificadores cruzados para extraer señales LLM y obtener recomendaciones de frases clave de anunciantes en eBay

Cuando los coches tienen estereotipos: auditoría del sesgo demográfico en objetos a partir de modelos de texto a imagen

HiTeC: Aprendizaje contrastivo jerárquico en hipergrafos atribuidos a texto con aumento consciente de la semántica

SpectrumFM: Redefiniendo la cognición del espectro mediante el modelado de bases

Cirugía dinámica asistida por robot con segmentación semántica incremental de clases jerárquicas

Un nuevo modelo de lenguaje para predecir resultados de eventos adversos graves en ensayos clínicos a partir de sus registros prospectivos

Un poco de libertad rinde mucho: algoritmos clásicos y cuánticos para el aprendizaje por refuerzo bajo un modelo generativo

ALLoyM: Un modelo de lenguaje amplio para la predicción de diagramas de fases de aleación

Aprendizaje de visemas fonéticos dependientes del contexto para mejorar la animación facial 3D basada en el habla

¿Están los modelos de Vision Foundation preparados para el registro de imágenes médicas listas para usar?

SystolicAttention: fusión de FlashAttention en una única matriz sistólica

RAPNet: una red neuronal convolucional adaptativa de campo receptivo para pansharpening

AMix-1: Un camino hacia un modelo de base proteica escalable en tiempo de prueba

Superando la última milla de la predicción: mejora de la previsión de series temporales con correspondencia de flujo guiada condicional

Speckle2Self: Reducción de moteado por ultrasonido autosupervisada sin datos limpios

LIRA: Inferencia de segmentación en grandes modelos multimodales con asistencia de regiones intercaladas locales

Abordar los efectos devastadores del envenenamiento de datos de una sola tarea en el aprendizaje continuo sin ejemplos

Modelos de base versus modelos específicos de dominio: comparación de rendimiento, fusión y explicabilidad en el reconocimiento facial

Optimalidad probabilística para el escalamiento en tiempo de inferencia

ARAG: Generación aumentada de recuperación agéntica para recomendaciones personalizadas

Explorando las ventajas y desventajas del diseño de adaptadores para la generación de música con bajos recursos

CycleDistill: Arranque de la traducción automática mediante LLM con destilación cíclica

Detección robusta de anomalías en el tráfico de red: evaluación de modelos de aprendizaje automático en CICIDS2017

Clonación robusta del comportamiento mediante regularización global de Lipschitz

K-medias de múltiples núcleos inducidas por bolas granulares

DRAMA-X: Un punto de referencia de predicción de intenciones y razonamiento de riesgos de grano fino para la conducción

MMET: Un transformador multientrada y multiescala para la resolución eficiente de ecuaciones diferenciales parciales (EDP)

Un método de optimización de dos etapas para la detección magnética cuántica de un solo electrón de amplio rango

Transformador con base en la física y con capacidad de teleconexión para pronósticos globales subestacionales a estacionales

Compromisos generados por IA para la formación de coaliciones

MLOps con microservicios: un estudio de caso en el ámbito marítimo

El ganador se lo lleva todo en la predicción de series temporales probabilísticas multivariadas

Saltos más allá de lo visible: Razonamiento reforzado, generación aumentada de notas clínicas

Aprendiendo a diagnosticar de forma privada: LLM con tecnología de DP para la clasificación de informes de radiología

HERGC: Representación de expertos heterogéneos y compleción generativa para gráficos de conocimiento multimodales

Hombre lobo verbal: Involucra a los usuarios con un marco de juego de hombre lobo verbalizado y agente

MaCP: Adaptación mínima pero poderosa mediante proyección jerárquica de coseno

CADRE: Garantía personalizable de disponibilidad de datos en el aprendizaje federado que preserva la privacidad

FP4 All the Way: Formación totalmente cuantificada de LLM

Mejora de los resultados de LLM contra ataques de jailbreak con la integración de modelos expertos

Extracción de conocimiento probabilístico de grandes modelos lingüísticos para la parametrización de redes bayesianas

RIDGECUT: Aprendiendo la partición de gráficos con anillos y cuñas

Pérdida uniforme vs. optimización especializada: un análisis comparativo en el aprendizaje multitarea

¿Pueden las estrategias de inversión financiera basadas en LLM superar al mercado en el largo plazo?

Un enfoque de aprendizaje profundo multimodal para la predicción de la forma de la materia blanca en la tractografía de resonancia magnética de difusión

La escasez supera las proyecciones de bajo rango en la adaptación de pocos intentos

Aprendizaje de representación multimodal de proteínas jerárquicas bidireccionales

Cómo la formación posterior transforma los LLM: una visión mecanicista del conocimiento, la veracidad, el rechazo y la confianza

$\Mu$KE: Edición de conocimiento no estructurado de Matryoshka de modelos de lenguaje grandes

Aprendiendo simuladores 3D-gaussianos a partir de videos RGB

Aprendizaje del agarre diestro adaptativo a partir de demostraciones individuales

Una teoría del aprendizaje con cadena de pensamiento autorregresiva

FunGraph: Gráficos de escenas 3D con funcionalidades para interacción entre escenas basada en el lenguaje

De la reutilización a la previsión: Aceleración de los modelos de difusión con TaylorSeers

ElementaryNet: Una red neuronal no estratégica para predecir el comportamiento humano en juegos de forma normal

Razonamiento colectivo entre estudiantes de maestría en derecho: un marco para la validación de respuestas sin verdad fundamental

Avances en la síntesis de imágenes médicas con IA: perspectivas del desafío MedVQA-GI con CLIP, difusión estable optimizada y Dream-Booth + LoRA

Predicción de la depresión en entrevistas de detección mediante la colaboración interactiva multitemática

Razonamiento de gráficos de escena guiados por esquemas basado en un sistema de modelos de lenguaje grande multiagente

MQuant: Liberando el potencial de inferencia de los modelos de lenguaje multimodales grandes mediante la cuantificación estática completa

Mitigación de las oscilaciones de tráfico en flujos de tráfico mixto con control predictivo Koopman profundo y escalable

Mejorar la clasificación de su modelo en Chatbot Arena mediante la manipulación de votos

FIT-Print: Hacia una verificación de propiedad de modelos resistente a reclamaciones falsas mediante huellas dactilares específicas

La atención de Softplus con reponderación mejora la extrapolación de longitud en modelos de lenguaje grandes

Rango de Ehrenfeucht-Haussler y cadena de pensamiento

WebWalker: Evaluación comparativa de LLM en navegación web

IA generativa para animación de celuloide: una encuesta

Hacia una nube inteligente y segura: un modelo de lenguaje amplio que potencia la defensa proactiva

Aumento de MomentMix con DETR con reconocimiento de longitud para una recuperación de momentos robusta temporalmente

POEX: Hacia ataques de fuga de políticas ejecutables contra robots basados en LLM

B-VLLM: Un modelo de lenguaje de gran tamaño con tokens espacio-temporales equilibrados

LoRA.rar: Aprendiendo a fusionar LoRAs mediante hiperredes para la generación de imágenes condicionadas según el estilo del sujeto

Comprensión y mitigación de la memorización en modelos generativos mediante la nitidez de los paisajes de probabilidad

Personalización de textos científicos impulsada por IA para el público general

Conversión de voz de disparo cero mediante conjunto de timbres con reconocimiento de contenido y coincidencia de flujo condicional

EfficientEQA: Un enfoque eficiente para la respuesta a preguntas con vocabulario abierto

UoMo: Un modelo universal de pronóstico de tráfico móvil para la optimización de redes inalámbricas

MaCP: Adaptación mínima pero poderosa mediante proyección jerárquica de coseno

Exploración de la representación espacial para mejorar el razonamiento LLM en la navegación aérea con visión y lenguaje

Una mirada más cercana al desaprendizaje automático para modelos de lenguaje grandes

Ajuste in situ de modelos de vida silvestre en cámaras trampa con IoT para una adaptación eficiente

Preentrenamiento del lenguaje EEG para una fenotipificación clínica de alta eficiencia de etiquetado

Una práctica de post-entrenamiento en Llama-3 70B con selección óptima de la proporción de mezcla de idiomas adicionales

Modelos de difusión basados en puntuaciones y dirigidos por recompensas mediante aprendizaje q

Cadena de Pensamiento: APriCoT ayuda a pensar despacio

Una encuesta sobre el modelo MoErging: reciclaje y enrutamiento entre expertos especializados para el aprendizaje colaborativo

Sesgo IA-IA: los modelos de lenguaje grandes favorecen las comunicaciones generadas por modelos de lenguaje grandes

LVBench: Un video de referencia extremadamente largo para comprender el rendimiento

De picos a colas pesadas: Desvelando la evolución espectral de las redes neuronales

Cristales rotos, cámaras defectuosas: simulación de muestras adversarias basadas en la física para sistemas de conducción autónoma

Monitoreo en tiempo de ejecución y aplicación de la equidad condicional en IA generativas

Sobre la eficiencia muestral de las abstracciones y la conformación de recompensas basada en el potencial en el aprendizaje por refuerzo

Mire antes de fusionar: Alineación intermodal guiada en 2D para una detección 3D robusta

Created by

Haebom

Autor

Xiang Li, Zhangchi Hu, Xiao Xu, Bin Kong

Describir

Este artículo presenta un método para integrar las entradas de LiDAR y cámara en una representación unificada de Vista de Pájaro (BEV) para mejorar el rendimiento de la percepción 3D de los vehículos autónomos. Los métodos existentes presentan desalineación espacial entre las características de LiDAR y la cámara, lo que genera errores en la supervisión precisa de la profundidad de las ramas de la cámara y en la agregación de características intermodales. Este artículo demuestra que las causas fundamentales de estas desalineaciones residen en imprecisiones de calibración y errores de proyección causados por el efecto de obturador rodante. Observamos que estos errores se concentran previsiblemente en los límites entre el objeto y el fondo, que los detectores 2D identifican de forma fiable. Por lo tanto, nuestro objetivo principal es aprovechar la información previa de los objetos 2D para prealinear las características intermodales antes de la fusión. Para abordar la desalineación local, proponemos la Calibración de Profundidad Guiada por Previo (PGDC), que utiliza información previa 2D para mitigar la desalineación y mantener pares de características intermodales precisos. Para abordar los errores de alineación global, introducimos la Fusión Geométrica con Conciencia de Discontinuidad (DAGF), que suprime el ruido residual de PGDC y mejora explícitamente las variaciones de profundidad distintivas en los límites entre el objeto y el fondo para generar representaciones estructuralmente reconocibles. Para utilizar eficazmente las representaciones alineadas, integramos el Modulador de Profundidad de Guía Estructural (SGDM), que fusiona eficientemente la profundidad alineada y las características de la imagen mediante un mecanismo de atención controlada. El método propuesto alcanza un rendimiento de vanguardia (mAP 71,5 %, NDS 73,6 %) en el conjunto de datos de validación de nuScenes.

Takeaways, Limitations

•

Takeaways:

◦

Presentamos una solución efectiva al problema de error de alineación espacial que ocurre al fusionar datos LiDAR y de cámara.

◦

Mejora de la precisión de la alineación de características intermodales aprovechando la información previa de objetos 2D.

◦

Reconocimiento estructural y mejora de la precisión de la representación de BEV a través de los módulos PGDC, DAGF y SGDM.

◦

Lograr el rendimiento SOTA en el conjunto de datos nuScenes

•

Limitations:

◦

El rendimiento del método propuesto puede limitarse a un conjunto de datos específico (nuScenes).

◦

Puede depender del rendimiento del detector de objetos 2D, lo que significa que los errores en el detector 2D pueden afectar el rendimiento de todo el sistema.

◦

Se necesita una mayor verificación del rendimiento de generalización en entornos de conducción autónoma del mundo real.

◦

Se necesita más investigación sobre la complejidad computacional y las capacidades de procesamiento en tiempo real.

Ver PDF

Made with Slashpage