[공지사항]을 빙자한 안부와 근황

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

EgoVLA: Aprendizaje de modelos de visión, lenguaje y acción a partir de vídeos de personas egocéntricas

Código latente discreto composicional para modelos de difusión productivos de alta fidelidad

Código MERA: un marco unificado para evaluar la generación de código en distintas tareas

Ajuste fino a nivel de sitio con congelación progresiva de capas: hacia una predicción robusta de la displasia broncopulmonar a partir de radiografías de tórax del primer día en bebés extremadamente prematuros

Una hoja de ruta para la investigación robótica relevante para el clima

La imparcialidad no es suficiente: auditoría de competencias y sesgo interseccional en la selección de currículos con inteligencia artificial

MMOne: Representación de múltiples modalidades en una sola escena

SWE-MERA: Un punto de referencia dinámico para la evaluación de modelos lingüísticos de gran tamaño en tareas de ingeniería de software

CodeAssistBench (CAB): Conjunto de datos y evaluación comparativa para la asistencia de código basada en chat multiturno

Costura de modelos de base con modalidad (casi) libre

Un método de segmentación de tumores cerebrales basado en CLIP y 3D U-Net con guía semántica intermodal y fusión de características multinivel

KEN: Red de aumento del conocimiento y guía emocional para la detección multimodal de noticias falsas

THOR: Heurísticas de transformadores para la recuperación a demanda

SEALGuard: Protección de conversaciones multilingües en idiomas del sudeste asiático para sistemas de software LLM

KeyRe-ID: Reidentificación de personas guiada por puntos clave mediante representación parcial en vídeos

Las perturbaciones inmediatas revelan sesgos similares a los humanos en las respuestas de la encuesta LLM

Gemini 2.5: Ampliando la frontera con razonamiento avanzado, multimodalidad, contexto amplio y capacidades de agencia de próxima generación

Teleoperación bilateral rápida y aprendizaje por imitación mediante control de fuerza sin sensores mediante un modelo dinámico preciso

Destilación de conjuntos de datos generativos específicos de la tarea con muestreo guiado por dificultad

VIDEO: Descomposición, ejecución y evaluación visual e interactiva de análisis de texto con agentes inteligentes

ReCode: Actualización del conocimiento de la API de código con aprendizaje de refuerzo

Descubrimiento de conceptos discretos entre capas para la interpretación de modelos lingüísticos

Ataques generativos conscientes de la estructura semántica para una mejor transferibilidad adversarial

MEM1: Aprendiendo a sinergizar la memoria y el razonamiento para agentes eficientes de largo horizonte

Entrenamiento basado en la población de múltiples frecuencias

Crítica-GRPO: Avances en el razonamiento LLM con lenguaje natural y retroalimentación numérica

¿Perfeccionar un SLM o impulsar un LLM? El caso de la generación de flujos de trabajo de bajo código

ContextQFormer: Un nuevo método de modelado de contexto para conversaciones multimodales de múltiples turnos

La portabilidad del rendimiento de la GPU necesita autoajuste

Generación de datos sintéticos mediante aumentos para mejorar el parecido facial en DreamBooth e InstantID

Protocolo Coral: Infraestructura abierta que conecta la Internet de los agentes

MAC-Tuning: LLM Razonamiento de Problemas Multicomposicionales con Conciencia Mejorada de los Límites de Conocimiento

Aprendizaje federado: una encuesta sobre inteligencia colaborativa que preserva la privacidad

ConTextual: Mejora de la síntesis de textos clínicos en LLM con filtrado de tokens que preserva el contexto y gráficos de conocimiento

Cuantización de circuitos de tareas: aprovechamiento de la localización y la interpretabilidad del conocimiento para la compresión

JailDAM: Detección de fugas de la cárcel con memoria adaptativa para el modelo visión-lenguaje

Redes neuronales cuánticas KP

VectorFit: Ajuste fino adaptativo de vectores singulares y sesgados de modelos de base preentrenados

Red de operadores profundos con eficiencia de datos para flujo inestable: un enfoque de fidelidad múltiple con submuestreo guiado por la física

Aprendizaje de patrones universales de movilidad humana con un modelo de base para la fusión de datos entre dominios

GeoFlow-SLAM: Un SLAM robusto de fusión de odometría RGBD-inercial y con patas, estrechamente acoplado, para robótica dinámica con patas.

Un marco multietapa con razonamiento guiado por taxonomía para la clasificación de ocupaciones utilizando modelos lingüísticos amplios

Poda de nodos de múltiples vistas para una representación gráfica precisa

V-Max: Un marco de aprendizaje por refuerzo para la conducción autónoma

Transformación interpretable y análisis de líneas de tiempo mediante el aprendizaje por medio de la sorpresa

ÍNdice de Evaluación Internacional de Gobernanza de la IA (Índice AGILE) 2024

UPCORE: Selección de núcleos que preservan la utilidad para un desaprendizaje equilibrado

Mejora de los modelos de Transformer World para un aprendizaje automático eficiente en el uso de datos

LLM-RecG: Un marco que considera el sesgo semántico para la recomendación secuencial de disparo cero

SIDDA: Adaptación dinámica del dominio SInkhorn para la clasificación de imágenes con redes neuronales equivariantes

Determinación de los corrimientos al rojo fotométricos de galaxias mediante redes generativas antagónicas condicionales (CGAN)

Análisis forense del habla: hacia el establecimiento y análisis integral de conjuntos de datos sintéticos del habla

MRGen: motor de datos de segmentación para modalidades de resonancia magnética subrepresentadas

IOPO: Capacitar a los LLM con el seguimiento de instrucciones complejas mediante la optimización de preferencias de entrada-salida

Recuperación fuera de distribución con política inversa de puntos clave centrada en objetos para el aprendizaje por imitación visomotora

Conjunto de datos resultante del estudio de usuarios sobre la comprensibilidad de algoritmos de IA explicables

Evaluación unificada de alucinaciones a nivel de triplete para modelos de visión y lenguaje de gran tamaño

LoRA Done RITE: Equilibrio de transformación invariante robusto para la optimización de LoRA

Identificación de agrupaciones de tareas para el aprendizaje multitarea mediante información V-Usable puntual

DeFine: Toma de decisiones con razonamiento analógico sobre perfiles factoriales

Clasificación de subgéneros de referencia para la música de baile convencional

Riesgos de ignorar la propagación de la incertidumbre en los procesos de seguridad aumentados por IA

MedPix 2.0: Un conjunto integral de datos biomédicos multimodales para aplicaciones avanzadas de IA con recuperación, generación aumentada y gráficos de conocimiento

Aprovechamiento de la superposición cuántica para inferir el comportamiento dinámico de un modelo de señalización de red neuronal espacio-temporal

Limitando el error de peor clase: un enfoque de refuerzo

TBDetector: Detector basado en transformadores para amenazas persistentes avanzadas con gráfico de procedencia

Sistemas de aprendizaje automático: un estudio desde una perspectiva orientada a los datos

Aime: Hacia un marco multiagente totalmente autónomo

SmartThinker: Aprender a comprimir y preservar el razonamiento mediante el control de la longitud paso a paso

Ready Jurist One: Análisis comparativo de agentes lingüísticos para la inteligencia jurídica en entornos dinámicos

NTRL: Generación de encuentros mediante aprendizaje de refuerzo para el ajuste dinámico de la dificultad en Dungeons and Dragons

Juzgar con múltiples mentes: ¿Más perspectivas implican menos prejuicios? Sobre la amplificación de sesgos y la resistencia en el LLM multiagente como juez

ActionStudio: Un marco ligero para datos y entrenamiento de modelos de acción de gran tamaño

BEARCUBS: Un referente para agentes web que utilizan ordenadores

Desmitificando la planificación MuZero: Interpretando el modelo aprendido

LLM - Interacciones mejoradas entre usuarios y artículos: Aprovechamiento de la información de Edge para optimizar las recomendaciones

VideoITG: Comprensión de video multimodal con fundamento temporal instruido

VisionThink: Modelo de lenguaje visual inteligente y eficiente mediante aprendizaje por refuerzo

Desequilibrio en el equilibrio: Concepto en línea Equilibrio en modelos de generación

Dirección de políticas latentes con modelos mundiales preentrenados, independientes de la encarnación

El entrenamiento en visión y lenguaje ayuda a implementar el conocimiento taxonómico pero no lo altera fundamentalmente

Revisando la confiabilidad en el punto de referencia de estimación de pose basada en razonamiento

AbGen: Evaluación de modelos lingüísticos extensos en el diseño y evaluación de estudios de ablación para la investigación científica

Hacia la verificación formal del código generado por LLM a partir de indicaciones de lenguaje natural

Evaluación de algoritmos de aprendizaje por refuerzo para la navegación en cuadrúpedos robóticos simulados: un estudio comparativo inspirado en el comportamiento de los perros guía

Descripción general de TalentCLEF 2025: Inteligencia de habilidades y puestos de trabajo para la gestión del capital humano

QuestA: Ampliación de la capacidad de razonamiento en los LLM mediante el aumento de preguntas

Voxtral

Núcleo de fusión para optimización bayesiana en el espacio de permutación

Adaptación eficiente de un transformador de visión preentrenado sustentado por una estrategia de ajuste fino aproximadamente ortogonal

Automatización de la dirección para modelos lingüísticos grandes multimodales seguros

HATS: Conjunto de pruebas de analogía en hindi para evaluar el razonamiento en modelos lingüísticos amplios

VITA: Política de correspondencia entre el flujo de visión y acción

$S^2M^2$: Modelo de correspondencia estéreo escalable para una estimación de profundidad confiable

Sintetizando la realidad: Aprovechando la plataforma impulsada por IA generativa Midjourney para la detección de trabajadores de la construcción

Alineación de humanos y robots mediante aprendizaje de refuerzo a partir de retroalimentación humana implícita

SHIELD: Un aprendizaje integrado seguro y altamente mejorado para la detección robusta de deepfakes contra ataques adversarios

Inyección inmediata 2.0: Amenazas de la IA híbrida

Orbis: Superando los desafíos de la predicción a largo plazo en modelos de conducción del mundo

El aprendizaje por refuerzo inverso se encuentra con un modelo de lenguaje extenso después del entrenamiento: fundamentos, avances y oportunidades

VisionThink: Modelo de lenguaje visual inteligente y eficiente mediante aprendizaje por refuerzo

Created by

Haebom

Autor

Senqiao Yang, Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jiaya Jia

Describir

En este artículo, proponemos VisionThink, un novedoso método para mejorar la eficiencia de los modelos de visión-lenguaje (VLM) mediante la reducción del número de tokens de imagen. Los VLM existentes utilizan muchos tokens de imagen mucho más largos que los de texto, pero la mayoría de las tareas prácticas no requieren una cantidad tan grande de tokens. VisionThink comienza submuestreando la imagen y determina si es suficiente para resolver el problema. De no ser así, genera un token especial que solicita una imagen de alta resolución. Mediante aprendizaje por refuerzo y la estrategia LLM como juez, se aplica a tareas generales de VQA, logrando relaciones de redimensionamiento de imagen estables y razonables mediante funciones de recompensa y mecanismos de penalización. Demuestra una capacidad de comprensión visual detallada en tareas relacionadas con OCR y reduce considerablemente el número de tokens de imagen en tareas simples.

Takeaways, Limitations

•

Takeaways:

◦

Demostramos que la eficiencia de VLM se puede mejorar significativamente ajustando dinámicamente la cantidad de tokens de imagen.

◦

Presenta un método más efectivo y flexible que los métodos de compresión de tokens fijos existentes.

◦

Se aplicó con éxito a tareas generales de VQA aprovechando el aprendizaje de refuerzo y la estrategia LLM-as-Judge.

◦

Funciona bien en tareas relacionadas con OCR y reduce eficazmente la cantidad de tokens en tareas simples.

◦

La reproducibilidad está garantizada mediante código abierto.

•

Limitations:

◦

Tal vez se necesiten más investigaciones sobre el rendimiento de generalización del método propuesto.

◦

Puede haber una degradación del rendimiento para ciertos tipos de tareas (por ejemplo, algunas tareas relacionadas con OCR).

◦

Puede que falte una descripción detallada del proceso de entrenamiento en el aprendizaje de refuerzo.

Ver PDF

Made with Slashpage