[공지사항]을 빙자한 안부와 근황

Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

EgoVLA: Aprendizaje de modelos de visión, lenguaje y acción a partir de vídeos de personas egocéntricas

Código latente discreto composicional para modelos de difusión productivos de alta fidelidad

Código MERA: un marco unificado para evaluar la generación de código en distintas tareas

Ajuste fino a nivel de sitio con congelación progresiva de capas: hacia una predicción robusta de la displasia broncopulmonar a partir de radiografías de tórax del primer día en bebés extremadamente prematuros

Una hoja de ruta para la investigación robótica relevante para el clima

La imparcialidad no es suficiente: auditoría de competencias y sesgo interseccional en la selección de currículos con inteligencia artificial

MMOne: Representación de múltiples modalidades en una sola escena

SWE-MERA: Un punto de referencia dinámico para la evaluación de modelos lingüísticos de gran tamaño en tareas de ingeniería de software

CodeAssistBench (CAB): Conjunto de datos y evaluación comparativa para la asistencia de código basada en chat multiturno

Costura de modelos de base con modalidad (casi) libre

Un método de segmentación de tumores cerebrales basado en CLIP y 3D U-Net con guía semántica intermodal y fusión de características multinivel

KEN: Red de aumento del conocimiento y guía emocional para la detección multimodal de noticias falsas

THOR: Heurísticas de transformadores para la recuperación a demanda

SEALGuard: Protección de conversaciones multilingües en idiomas del sudeste asiático para sistemas de software LLM

KeyRe-ID: Reidentificación de personas guiada por puntos clave mediante representación parcial en vídeos

Las perturbaciones inmediatas revelan sesgos similares a los humanos en las respuestas de la encuesta LLM

Gemini 2.5: Ampliando la frontera con razonamiento avanzado, multimodalidad, contexto amplio y capacidades de agencia de próxima generación

Teleoperación bilateral rápida y aprendizaje por imitación mediante control de fuerza sin sensores mediante un modelo dinámico preciso

Destilación de conjuntos de datos generativos específicos de la tarea con muestreo guiado por dificultad

VIDEO: Descomposición, ejecución y evaluación visual e interactiva de análisis de texto con agentes inteligentes

ReCode: Actualización del conocimiento de la API de código con aprendizaje de refuerzo

Descubrimiento de conceptos discretos entre capas para la interpretación de modelos lingüísticos

Ataques generativos conscientes de la estructura semántica para una mejor transferibilidad adversarial

MEM1: Aprendiendo a sinergizar la memoria y el razonamiento para agentes eficientes de largo horizonte

Entrenamiento basado en la población de múltiples frecuencias

Crítica-GRPO: Avances en el razonamiento LLM con lenguaje natural y retroalimentación numérica

¿Perfeccionar un SLM o impulsar un LLM? El caso de la generación de flujos de trabajo de bajo código

ContextQFormer: Un nuevo método de modelado de contexto para conversaciones multimodales de múltiples turnos

La portabilidad del rendimiento de la GPU necesita autoajuste

Generación de datos sintéticos mediante aumentos para mejorar el parecido facial en DreamBooth e InstantID

Protocolo Coral: Infraestructura abierta que conecta la Internet de los agentes

MAC-Tuning: LLM Razonamiento de Problemas Multicomposicionales con Conciencia Mejorada de los Límites de Conocimiento

Aprendizaje federado: una encuesta sobre inteligencia colaborativa que preserva la privacidad

ConTextual: Mejora de la síntesis de textos clínicos en LLM con filtrado de tokens que preserva el contexto y gráficos de conocimiento

Cuantización de circuitos de tareas: aprovechamiento de la localización y la interpretabilidad del conocimiento para la compresión

JailDAM: Detección de fugas de la cárcel con memoria adaptativa para el modelo visión-lenguaje

Redes neuronales cuánticas KP

VectorFit: Ajuste fino adaptativo de vectores singulares y sesgados de modelos de base preentrenados

Red de operadores profundos con eficiencia de datos para flujo inestable: un enfoque de fidelidad múltiple con submuestreo guiado por la física

Aprendizaje de patrones universales de movilidad humana con un modelo de base para la fusión de datos entre dominios

GeoFlow-SLAM: Un SLAM robusto de fusión de odometría RGBD-inercial y con patas, estrechamente acoplado, para robótica dinámica con patas.

Un marco multietapa con razonamiento guiado por taxonomía para la clasificación de ocupaciones utilizando modelos lingüísticos amplios

Poda de nodos de múltiples vistas para una representación gráfica precisa

V-Max: Un marco de aprendizaje por refuerzo para la conducción autónoma

Transformación interpretable y análisis de líneas de tiempo mediante el aprendizaje por medio de la sorpresa

ÍNdice de Evaluación Internacional de Gobernanza de la IA (Índice AGILE) 2024

UPCORE: Selección de núcleos que preservan la utilidad para un desaprendizaje equilibrado

Mejora de los modelos de Transformer World para un aprendizaje automático eficiente en el uso de datos

LLM-RecG: Un marco que considera el sesgo semántico para la recomendación secuencial de disparo cero

SIDDA: Adaptación dinámica del dominio SInkhorn para la clasificación de imágenes con redes neuronales equivariantes

Determinación de los corrimientos al rojo fotométricos de galaxias mediante redes generativas antagónicas condicionales (CGAN)

Análisis forense del habla: hacia el establecimiento y análisis integral de conjuntos de datos sintéticos del habla

MRGen: motor de datos de segmentación para modalidades de resonancia magnética subrepresentadas

IOPO: Capacitar a los LLM con el seguimiento de instrucciones complejas mediante la optimización de preferencias de entrada-salida

Recuperación fuera de distribución con política inversa de puntos clave centrada en objetos para el aprendizaje por imitación visomotora

Conjunto de datos resultante del estudio de usuarios sobre la comprensibilidad de algoritmos de IA explicables

Evaluación unificada de alucinaciones a nivel de triplete para modelos de visión y lenguaje de gran tamaño

LoRA Done RITE: Equilibrio de transformación invariante robusto para la optimización de LoRA

Identificación de agrupaciones de tareas para el aprendizaje multitarea mediante información V-Usable puntual

DeFine: Toma de decisiones con razonamiento analógico sobre perfiles factoriales

Clasificación de subgéneros de referencia para la música de baile convencional

Riesgos de ignorar la propagación de la incertidumbre en los procesos de seguridad aumentados por IA

MedPix 2.0: Un conjunto integral de datos biomédicos multimodales para aplicaciones avanzadas de IA con recuperación, generación aumentada y gráficos de conocimiento

Aprovechamiento de la superposición cuántica para inferir el comportamiento dinámico de un modelo de señalización de red neuronal espacio-temporal

Limitando el error de peor clase: un enfoque de refuerzo

TBDetector: Detector basado en transformadores para amenazas persistentes avanzadas con gráfico de procedencia

Sistemas de aprendizaje automático: un estudio desde una perspectiva orientada a los datos

Aime: Hacia un marco multiagente totalmente autónomo

SmartThinker: Aprender a comprimir y preservar el razonamiento mediante el control de la longitud paso a paso

Ready Jurist One: Análisis comparativo de agentes lingüísticos para la inteligencia jurídica en entornos dinámicos

NTRL: Generación de encuentros mediante aprendizaje de refuerzo para el ajuste dinámico de la dificultad en Dungeons and Dragons

Juzgar con múltiples mentes: ¿Más perspectivas implican menos prejuicios? Sobre la amplificación de sesgos y la resistencia en el LLM multiagente como juez

ActionStudio: Un marco ligero para datos y entrenamiento de modelos de acción de gran tamaño

BEARCUBS: Un referente para agentes web que utilizan ordenadores

Desmitificando la planificación MuZero: Interpretando el modelo aprendido

LLM - Interacciones mejoradas entre usuarios y artículos: Aprovechamiento de la información de Edge para optimizar las recomendaciones

VideoITG: Comprensión de video multimodal con fundamento temporal instruido

VisionThink: Modelo de lenguaje visual inteligente y eficiente mediante aprendizaje por refuerzo

Desequilibrio en el equilibrio: Concepto en línea Equilibrio en modelos de generación

Dirección de políticas latentes con modelos mundiales preentrenados, independientes de la encarnación

El entrenamiento en visión y lenguaje ayuda a implementar el conocimiento taxonómico pero no lo altera fundamentalmente

Revisando la confiabilidad en el punto de referencia de estimación de pose basada en razonamiento

AbGen: Evaluación de modelos lingüísticos extensos en el diseño y evaluación de estudios de ablación para la investigación científica

Hacia la verificación formal del código generado por LLM a partir de indicaciones de lenguaje natural

Evaluación de algoritmos de aprendizaje por refuerzo para la navegación en cuadrúpedos robóticos simulados: un estudio comparativo inspirado en el comportamiento de los perros guía

Descripción general de TalentCLEF 2025: Inteligencia de habilidades y puestos de trabajo para la gestión del capital humano

QuestA: Ampliación de la capacidad de razonamiento en los LLM mediante el aumento de preguntas

Núcleo de fusión para optimización bayesiana en el espacio de permutación

Adaptación eficiente de un transformador de visión preentrenado sustentado por una estrategia de ajuste fino aproximadamente ortogonal

Automatización de la dirección para modelos lingüísticos grandes multimodales seguros

HATS: Conjunto de pruebas de analogía en hindi para evaluar el razonamiento en modelos lingüísticos amplios

VITA: Política de correspondencia entre el flujo de visión y acción

$S^2M^2$: Modelo de correspondencia estéreo escalable para una estimación de profundidad confiable

Sintetizando la realidad: Aprovechando la plataforma impulsada por IA generativa Midjourney para la detección de trabajadores de la construcción

Alineación de humanos y robots mediante aprendizaje de refuerzo a partir de retroalimentación humana implícita

SHIELD: Un aprendizaje integrado seguro y altamente mejorado para la detección robusta de deepfakes contra ataques adversarios

Inyección inmediata 2.0: Amenazas de la IA híbrida

Orbis: Superando los desafíos de la predicción a largo plazo en modelos de conducción del mundo

El aprendizaje por refuerzo inverso se encuentra con un modelo de lenguaje extenso después del entrenamiento: fundamentos, avances y oportunidades

FIQ: Generación de preguntas fundamentales con la integración de incrustaciones de preguntas para responder preguntas en video

Created by

Haebom

Autor

Ju Young Oh, Ho Joong Kim, Seong Whan Lee

Describir

Este artículo señala que los métodos existentes de preguntas y respuestas en video (VQA) se basan en anotaciones basadas en eventos, que no logran capturar adecuadamente el contexto del video. Para superar esta limitación, proponemos un enfoque novedoso: la generación de preguntas fundamentales con la integración de incrustaciones de preguntas para preguntas y respuestas en video (FIQ), que genera pares pregunta-respuesta fundamentales basados en descripciones extraídas de videos. FIQ permite al modelo comprender información básica de la escena a través de los pares pregunta-respuesta generados, mejorando así las capacidades de generalización e inferencia. Además, utilizamos el módulo VQ-CAlign para asociar incrustaciones de preguntas con características visuales y mejorar su adaptabilidad a tareas específicas. Mediante experimentos con el conjunto de datos SUTD-TrafficQA, demostramos que supera a los métodos existentes.

Takeaways, Limitations

•

Takeaways:

◦

Presentamos un método novedoso para mejorar la capacidad de inferencia de los modelos VQA mejorando la comprensión básica de los vídeos.

◦

Se mejora la generalización del modelo y la capacidad de inferencia a través de pares de preguntas y respuestas generados.

◦

Mayor adaptabilidad a tareas específicas mediante el módulo VQ-CAlign.

◦

Lograr un rendimiento de última generación en el conjunto de datos SUTD-TrafficQA.

•

Limitations:

◦

El rendimiento del método propuesto puede limitarse a un conjunto de datos específico (SUTD-TrafficQA).

◦

El rendimiento puede verse afectado por la calidad de los pares pregunta-respuesta generados.

◦

Se necesita un análisis más profundo de la eficacia del módulo VQ-CAlign.

◦

No se presentan resultados experimentales en otros conjuntos de datos VQA.

Made with Slashpage