Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VeOmni: Escalabilidad del entrenamiento de modelos de cualquier modalidad con un zoológico de recetas distribuidas centradas en modelos

Dynaword: De conjuntos de datos de una sola toma a conjuntos de datos de desarrollo continuo

Pronóstico Cuándo pronosticar: Aceleración de los modelos de difusión con Taylor controlado por confianza

Proof2Hybrid: Síntesis automática de referencias matemáticas para problemas centrados en la prueba

Cadena colaborativa de agentes para la sinergia del conocimiento recuperado paramétrico

BlockA2A: Hacia una interoperabilidad segura y verificable entre agentes

SpectrumWorld: Fundación de Inteligencia Artificial para la Espectroscopia

Gestión de la escalada en modelos de lenguaje grandes listos para usar

FGBench: Un conjunto de datos y punto de referencia para el razonamiento de propiedades moleculares a nivel de grupo funcional en modelos de lenguaje grandes

Un mapeo fundacional de Schema.org para un grafo de conocimiento legal: Representación de las normas jurídicas brasileñas según las FRBR

D3: Detección de vídeo generada por IA sin entrenamiento mediante características de segundo orden

SMART-Editor: Un marco multiagente para la edición de diseños con integridad estructural y de forma similar a la humana

Fusión de visión y lenguaje para la conducción autónoma en tiempo real: atención cruzada centrada en el objetivo de la cámara, el mapa HD y los puntos de referencia

MoCHA: Razonamiento avanzado de visión y lenguaje con conector MoE y atención grupal jerárquica

Impulse la destilación de conjuntos de datos autosupervisados mediante parametrización, aumento predefinido y aproximación

Memorización en modelos de lenguaje grandes y precisos

Del entrelazamiento a la alineación: descomposición del espacio de representación para la adaptación del dominio de series temporales no supervisadas

El Xeno Sutra: ¿Se puede atribuir significado y valor a un texto “sagrado” generado por inteligencia artificial?

Aprendizaje posterior a la finalización de los modelos lingüísticos

Ruido arcoíris: Prueba de estrés de detectores multimodales de memes dañinos en contenido LGBTQ

Agarre volumétrico equivalente

SemiSegECG: Un punto de referencia multiconjunto de datos para la segmentación semántica semisupervisada en la delimitación de ECG

FedSA-GCL: Un marco de aprendizaje de gráficos federados semiasincrónico con agregación personalizada y difusión con reconocimiento de clústeres

Las altas tasas de aprendizaje logran simultáneamente robustez ante correlaciones espurias y compresibilidad

R-Stitch: Costura de trayectoria dinámica para un razonamiento eficiente

P3SL: Aprendizaje dividido personalizado que preserva la privacidad en dispositivos de borde heterogéneos

Document Haystack: Un contexto extenso de comprensión de imágenes y documentos multimodales Visión LLM Benchmark

Agrupamiento escalable de gráficos con atributos faltantes mediante diferenciación de vecindad

TaylorPODA: un método basado en la expansión de Taylor para mejorar las atribuciones post-hoc en modelos opacos

Divide y luego vencerás: un interpolador jerárquico basado en clústeres para gráficos con atributos faltantes

$\Texttt{Droid}$: Un conjunto de recursos para la detección de código generado por IA

¿Razonamiento o memorización? Resultados poco fiables del aprendizaje por refuerzo debido a la contaminación de datos.

Fundamentos básicos para la optimización de las preferencias

Evaluación de LLM en pronósticos del mundo real frente a pronosticadores expertos

STRUCTSENSE: Un marco de trabajo agente independiente de tareas para la extracción de información estructurada con evaluación y benchmarking con intervención humana

S2FGL: Aprendizaje de gráficos federados espectrales espaciales

AI4Research: Un estudio sobre inteligencia artificial para la investigación científica

¿Por qué los programas de máster en derecho (LLM) de código abierto tienen dificultades con el análisis de datos? Un estudio empírico sistemático

Simulación de tráfico a largo plazo con movimiento autorregresivo intercalado y generación de escenarios

Reforzar los VLM para utilizar herramientas de razonamiento visual detallado bajo limitaciones de recursos

Difusión dirigida causalmente para la generación automatizada de contrafácticos en vídeo

¿Qué hace que un tokenizador de voz sea eficaz para la generación de voz centrada en LLM? Un estudio sistemático.

ChineseHarm-Bench: un punto de referencia para la detección de contenido dañino chino

ProRefine: Refinamiento de indicaciones en tiempo de inferencia con retroalimentación textual

SALAD: Evaluación sistemática del desaprendizaje automático en el diseño de hardware asistido por LLM

MetaGen Blended RAG: Desbloqueo de precisión de disparo cero para la respuesta a preguntas en dominios especializados

Hacia la revelación de la eficacia del ajuste fino a pequeña escala en el aprendizaje de refuerzo estilo R1

LightRetriever: una arquitectura de recuperación híbrida basada en LLM con inferencia de consultas 1000 veces más rápida

¿Pueden los grandes modelos multimodales comprender escenarios agrícolas? Benchmarking con AgroMind

Aprovechamiento de los modelos de visión y lenguaje para la fundamentación visual y el análisis de la interfaz de usuario automotriz

Integración temporal totalmente óptica mediada por antenas de calor de sublongitud de onda

GRILL: Restauración de la señal de gradiente en capas mal acondicionadas para mejorar los ataques adversarios a los autocodificadores

JointDiT: Mejora del modelado de uniones de profundidad RGB con transformadores de difusión

FFCBA: Ataques de puerta trasera de etiqueta limpia, de objetivo completo y basados en características

Sesgos de rendimiento multilingüe de los grandes modelos lingüísticos en la educación

NoWag: Un marco unificado para la compresión con preservación de la forma de modelos de lenguaje grandes

Reconstrucción de trayectorias de sepsis a partir de informes de casos clínicos mediante LLM: el corpus de series temporales textuales para la sepsis

Entrenamiento eficiente de modelos generativos mediante calentamiento de representación integrada

Desenrollado profundo bayesiano basado en la atención gráfica para imágenes lidar de fotón único de doble pico

Búsqueda de arquitectura espectral para modelos de redes neuronales

Mejora de la correspondencia estéreo omnidireccional con un modelo de base de profundidad entrenado previamente

ADS-Edit: Un conjunto de datos de edición de conocimiento multimodal para sistemas de conducción autónoma

Coincidencia de puntuaciones potenciales: eliminación del sesgo en el muestreo de estructuras moleculares con guía de energía potencial

Aprendizaje conjunto para modelos de lenguaje grandes en la generación de texto y código: una encuesta

Aprendizaje de desencadenantes adversarios aumentado

ETCH: Generalización del ajuste corporal a humanos vestidos mediante la tensión equivalente

M2S: jailbreak de múltiples turnos a un solo turno en Red Teaming para LLM

Un marco causal para alinear las métricas de calidad de imagen y la robustez de las redes neuronales profundas

PennyLang: Pionera en la generación de código cuántico basado en LLM con un novedoso conjunto de datos centrado en PennyLane

DexGraspVLA: Un marco de visión-lenguaje-acción para el agarre diestro general

Lente de entropía: la firma de información de los cálculos de transformadores

CAMEF: Pronóstico financiero multimodal con aumento causal basado en eventos mediante la integración de patrones de series temporales y anuncios macroeconómicos relevantes

Modelado de recompensas dispersas en el aprendizaje por refuerzo: un enfoque semisupervisado

AdamCoT: Replanteando el razonamiento fáctico translingüístico mediante la cadena de pensamiento multilingüe adaptativa

Posicionamiento inalámbrico impulsado por IA: fundamentos, estándares, estado del arte y desafíos

CHIRP: Un punto de referencia preciso para la evaluación de respuestas abiertas en modelos de visión y lenguaje

Actor-Crítico Suave con Recompensa Media

Un video vale más que mil imágenes: Explorando las últimas tendencias en la generación de videos largos

Del texto a la trayectoria: exploración de la representación y descomposición de restricciones complejas en el aprendizaje por refuerzo seguro

Hablando con DINO: Uniendo las estructuras de visión autosupervisada con el lenguaje para la segmentación de vocabulario abierto

SANDWICH: Hacia un sustituto de trazado de rayos neuronal inalámbrico, fuera de línea, diferenciable y totalmente entrenable

IDEATOR: Liberación y evaluación comparativa de grandes modelos de lenguaje de visión que se utilizan a sí mismos

Cobblestone: un enfoque de "divide y vencerás" para automatizar la verificación formal

Contracción efectiva de las creencias en las juntas generales anuales: un viaje más allá del ámbito financiero (informe técnico)

Más allá de las imágenes: Fusión adaptativa de datos visuales y textuales para la clasificación de alimentos

TAPAS: Derivación rápida y automática de estrategias tensoriales paralelas para redes neuronales grandes

KCR: Resolución de conflictos de conocimiento de largo contexto mediante razonamiento en LLM

¿Es el razonamiento en cadena de pensamiento de los LLM un espejismo? Una perspectiva de distribución de datos

CADDesigner: Diseño conceptual de modelos CAD basado en un agente de propósito general

Cuidado con la brecha: la divergencia entre las tareas humanas y las generadas por LLM

RL-PLUS: Cómo contrarrestar el colapso de los límites de capacidad de los LLM en aprendizaje por refuerzo mediante la optimización de políticas híbridas

Maximización suave basada en modelos de métricas adecuadas del poder humano a largo plazo

Tiny-BioMoE: un modelo de incrustación ligero para el análisis de bioseñales

El sistema de reescritura de términos de AlphaPhysics para calificar expresiones algebraicas en exámenes de Física

Modelado de la lógica modal deóntica en el sistema de programación de predicados y respuestas dirigido a objetivos s(CASP)

Optimización automática de indicaciones para la construcción de gráficos de conocimiento: perspectivas de un estudio empírico

La teoría de la conciencia cognitiva unificada para modelos lingüísticos: anclaje semántico, umbrales de activación y razonamiento emergente

Razonamiento abductivo basado en la consistencia sobre errores perceptuales de múltiples modelos preentrenados en entornos novedosos

Mejora de la resiliencia de los sistemas de IA: formulación y garantía de la resiliencia de LSTM basada en la teoría del control

UFEval: Evaluación unificada de grano fino con generalización de tareas y aspectos

OmniUnet: una red multimodal para la segmentación de terreno no estructurado en vehículos planetarios mediante imágenes RGB, de profundidad y térmicas

Created by

Haebom

Autor

Raúl Castilla-Arquillo, Carlos Pérez-del-Pulgar, Levin Gerdes, Alfonso García-Cerezo, Miguel A. Olivares-Méndez

Describir

Este artículo propone OmniUnet, un modelo de segmentación semántica basado en imágenes multimodales (RGB, profundidad, térmicas) para la navegación autónoma segura de exploradores de Marte. Entrenado con un conjunto de datos multimodales recopilados en el desierto de las Bardenas (España), OmniUnet emplea una arquitectura de red basada en transformadores y está diseñado para permitir la inferencia en tiempo real incluso en Jetson Orin Nano con recursos limitados. Los resultados experimentales demuestran un excelente rendimiento en la segmentación de terrenos complejos y no estructurados, alcanzando una precisión de píxel del 80,37 %. El conjunto de datos recopilados y el código fuente están abiertos y disponibles para futuras investigaciones.

Takeaways, Limitations

•

Takeaways:

◦

Se presenta un modelo efectivo de segmentación del terreno marciano utilizando imágenes multimodales (RGB-DT).

◦

Implementación de un modelo ligero capaz de procesar en tiempo real incluso en entornos con recursos limitados.

◦

Contribuir al desarrollo de futuras investigaciones a través de conjuntos de datos abiertos y código fuente.

◦

Contribuir a mejorar la seguridad de la conducción autónoma de los robots de exploración de Marte.

•

Limitations:

◦

Tamaño y diversidad de conjuntos de datos limitados (sólo desierto de Bardenas).

◦

Diferencias con el entorno marciano real (utilizando un entorno simulado).

◦

Es necesaria la verificación del rendimiento de generalización para otros tipos de terrenos y obstáculos.

◦

Se requiere una evaluación adicional de la durabilidad y la estabilidad para el funcionamiento a largo plazo.

Made with Slashpage