Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

NVIDIA Nemotron Nano 2: Un modelo de razonamiento híbrido Mamba-Transformer preciso y eficiente

Estabilización de potencia para centros de datos de entrenamiento de IA

Un estudio sistemático de modelos de aprendizaje profundo y métodos xAI para la detección de regiones de interés en exploraciones de resonancia magnética

Documentación de la implementación con Fabric: un repositorio de gobernanza de IA en el mundo real

Surya: Modelo fundamental para la heliofísica

Solo necesitas ejemplos concretos: Cómo maximizar el GRPO después del entrenamiento con presupuestos de anotación

MCLPD: Aprendizaje contrastivo multivista para la detección de EP basada en EEG en diferentes conjuntos de datos

FinAgentBench: Un conjunto de datos de referencia para la recuperación de agentes en la respuesta a preguntas financieras

VerilogLAVD: Generación de reglas asistida por LLM para la detección de vulnerabilidades en Verilog

Kourkoutas-Beta: Un optimizador de Adam impulsado por Sunspike con estilo desértico

SecFSM: Generación de código Verilog guiada por gráficos de conocimiento para máquinas de estados finitos seguras en sistemas en chip

Fortaleciendo la Web Agenética: Una Arquitectura de Confianza Cero Unificada contra Amenazas a la Capa Lógica

LATTE: Aprendizaje de transacciones alineadas e incrustaciones textuales para clientes bancarios

Predicador: Sistema de agencia de papel a video

Agoran: Un mercado abierto y agente para la automatización de RAN 6G

Codiseño arquitectónico para la detección de anomalías de disparo cero: desacoplamiento de la representación y fusión dinámica de características en CLIP

IBPS: Sistema de predicción de fianzas para la India

Diagnóstico de la memorización en el razonamiento en cadena, una ficha a la vez

TS-Insight: Visualización del muestreo de Thompson para verificación y XAI

Cuando una mejor visión conduce a la ceguera: un estudio diagnóstico del cuello de botella de información en los modelos de subtítulos de imágenes CNN-LSTM

Semilla-X: Desarrollo de un Máster de Traducción Multilingüe Sólido con los Parámetros 7B

Generación de bibliotecas pMHC-I guiadas por estructura mediante modelos de difusión

Aprendizaje enmascarado intermodal para la predicción de supervivencia en pacientes con CPNM tratados con ICI

MCA-RG: Mejora de los LLM con la alineación de conceptos médicos para la generación de informes de radiología

KEA Explain: Explicaciones de las alucinaciones mediante el análisis del núcleo gráfico

Evidencia empírica de falsificación de alineación en un LLM pequeño y técnicas de mitigación basadas en indicaciones

Un estudio de los modelos fundamentales para la IoT: taxonomía y análisis basado en criterios

Redes de regularización profunda para problemas inversos con operadores ruidosos

LaMP-Cap: Generación de títulos de figuras personalizados con perfiles de figuras multimodales

Sobre la imposibilidad fundamental del control de las alucinaciones en grandes modelos lingüísticos

Compresión de secuencias de tokens sin pérdidas mediante metatokens

Generación versátil de señales cardiovasculares con un transformador de difusión unificado

Selección flexible de herramientas mediante la alineación de atributos de baja dimensión de la visión y el lenguaje

Mutarjim: Impulsando la traducción bidireccional árabe-inglés con un modelo de lenguaje reducido

MMiC: Mitigación de la incompletitud de la modalidad en el aprendizaje federado en clústeres

Computación colaborativa de borde a nube para inteligencia distribuida y optimización de modelos: una encuesta

Sadeed: Impulsando la diacritización del árabe mediante un modelo de lenguaje reducido

Tarea 5 de Annif en SemEval-2025: XMTC tradicional ampliado con LLM

CaRL: Aprendizaje de políticas de planificación escalables con recompensas sencillas

Sobre la consistencia de las explicaciones de GNN para la detección de malware

Cequel: Consulta rentable de modelos lingüísticos grandes para agrupamiento de texto

Kuwain 1.5B: Un SLM árabe mediante inyección de lenguaje

MuSeD: Un conjunto de datos multimodales en español para la detección del sexismo en vídeos de redes sociales

TextSplat: Fusión semántica guiada por texto para salpicadura gaussiana generalizable

VerifiAgent: un agente de verificación unificado en el razonamiento de modelos de lenguaje

Manipulación de largo horizonte incorporada con generación de código de bucle cerrado y adaptación incremental de pocos disparos

Revisando la detección fuera de distribución en la detección de objetos en tiempo real: de los problemas de referencia a un nuevo paradigma de mitigación

Un caso de especialización en entidades no humanas

Cadena de inferencia pragmática (PIC): mejora del razonamiento de los LLM sobre lenguaje tóxico implícito auténtico

Sintético vs. Oro: El rol de las etiquetas y datos generados por LLM en la detección del ciberacoso

Innamark: un método para ocultar información mediante el reemplazo de espacios en blanco

El pensamiento inverso guiado por ontología fortalece los modelos de lenguaje grandes en la respuesta a preguntas de gráficos de conocimiento

RefineCoder: Mejora iterativa de modelos de lenguaje grandes mediante refinamiento crítico adaptativo para la generación de código

Configuración única, seguridad permanente: Protocolo de agregación de aprendizaje federado seguro de configuración única con confidencialidad directa e inversa para usuarios dinámicos

Optimización de indicaciones autosupervisadas

Aprendiendo a generar pruebas unitarias para la depuración automatizada

Modelado de la discriminación con abstracción causal

Modelos de lenguaje amplios para la revisión bibliográfica automatizada: una evaluación de la generación de referencias, la redacción de resúmenes y la redacción de reseñas

Agente de evaluación: marco de evaluación eficiente y rápido para modelos generativos visuales

Aprendizaje rápido guiado por el conocimiento para el aseguramiento de la calidad de solicitudes en la revisión de código público

Ajuste de modelos fundamentales para codificar diagnósticos a partir de registros sanitarios veterinarios

Teuken-7B-Base y Teuken-7B-Instruct: Hacia los LLM europeos

Grounded-VideoLLM: Afinando la base temporal de grano fino en modelos de lenguaje de video de gran tamaño

Aprendizaje continuo para la fusión de datos multimodales de una pinza blanda

BoostTrack++: uso de información de tracklets para detectar más objetos en el seguimiento de múltiples objetos

OPDR: Reducción de la dimensión con preservación del orden para la integración semántica de datos científicos multimodales

CREMA: un autocodificador enmascarado regularizado contrastivo para diagnósticos de ECG robustos en diferentes dominios clínicos

Generación de terreno 3D con autómatas celulares 2D

Modelos de lenguaje desconectados y listos: Descomposición de expertos en modelos de lenguaje en el momento de la inferencia

Utilizar una arquitectura cognitiva para considerar la antinegritud en el diseño y desarrollo de sistemas de IA

ITL-LIME: Aprendizaje por transferencia basado en instancias para mejorar las explicaciones locales en entornos de datos con recursos limitados

ThinkTuning: Inculcando reflexiones cognitivas sin destilación

Un “teorema del buen regulador” para agentes encarnados

Agentes prescriptivos basados en RAG para mantenimiento automatizado (PARAM)

Un subobjetivo a la vez: generalización de disparo cero a requisitos de lógica temporal lineal arbitraria en el aprendizaje por refuerzo de múltiples tareas

Opus: Un marco de intención rápida para la generación de flujos de trabajo complejos

Exploración de los efectos de las cinco grandes personalidades y las capacidades de la IA en diálogos de negociación simulados mediante LLM

Lo que cuenta es la intención: evaluación de los intentos de los LLM de vanguardia por persuadir sobre temas perjudiciales

GATES: Programación dinámica de flujos de trabajo con enfoque en costos mediante redes de atención gráfica y estrategia de evolución

Diseño curricular automático para la coordinación humano-IA sin intervención

PersonaBench: Evaluación de modelos de IA para la comprensión de información personal mediante el acceso a datos privados (sintéticos) de usuarios

SycEval: Evaluación de la adulación en los LLM

CopyrightShield: Mejora de la seguridad del modelo de difusión contra ataques de infracción de derechos de autor

VLASCD: Un modelo de acción del lenguaje visual para charlar y tomar decisiones simultáneamente

Explorando el efecto del contenido y el formato de la explicación en la comprensión y la confianza del usuario en la atención médica

Sobre los costos de acción de aprendizaje a partir de los planes de entrada

Interacción humano-objeto a partir de instrucciones de nivel humano

Aprendizaje estratégico no lineal consciente del bienestar

CRISPR-GPT para la automatización agente de experimentos de edición genética

SceneGen: Generación de escenas 3D de una sola imagen en una sola pasada de avance

Descubrimiento de estructuras algebraicas ocultas mediante transformadores con haz con reconocimiento de rango GRPO

LiveMCP-101: Pruebas de estrés y diagnóstico de agentes habilitados para MCP en consultas desafiantes

Dinámica neuronal del robot

Diseccionando el razonamiento integrado con herramientas: un estudio y análisis empírico

"¿La entrada de la cafetería parece accesible? ¿Dónde está la puerta?". Hacia los agentes de IA geoespacial para consultas visuales.

Capacitación integral del sistema RAG de Agentic para un razonamiento de diagnóstico trazable

Los modelos numéricos superan los pronósticos meteorológicos de IA de extremos récord

EcomMMMU: Utilización estratégica de elementos visuales para modelos robustos de comercio electrónico multimodal

Tutorial sobre la unificación probabilística de la teoría de la estimación, el aprendizaje automático y la IA generativa

StreamMem: memoria caché KV independiente de consultas para la comprensión de la transmisión de vídeo

Diagnóstico de la memorización en el razonamiento en cadena, una ficha a la vez

Created by

Haebom

Autor

Huihan Li, You Chen, Siyuan Wang, Yixin He, Ninareh Mehrabi, Rahul Gupta, Xiang Ren

Describir

Este artículo aborda el fenómeno donde los modelos de lenguaje a gran escala (LLMs) se desempeñan bien en los puntos de referencia de inferencia, pero a menudo fallan incluso cuando la entrada se altera ligeramente. Específicamente, destacamos que los patrones de memoria defectuosos en la inferencia de Cadena de Pensamiento (CoT) pueden conducir a errores intermedios, resultando en respuestas finales incorrectas. Para abordar esto, presentamos STIM, un marco novedoso. STIM se centra en identificar la fuente de memoria asignando cada token en el proceso de inferencia a una de varias fuentes de memoria (local, de rango medio o de largo alcance) con base en co-ocurrencias estadísticas en el corpus de preentrenamiento. El análisis a nivel de token en varias tareas y entornos distribucionales revela que los modelos dependen más de la memoria en tareas complejas o de cola larga, siendo la memoria local la principal fuente de errores (hasta el 67% de tokens incorrectos). También demostramos que las puntuaciones de memoria de STIM pueden usarse para predecir tokens incorrectos en pasos de inferencia erróneos. STIM es una herramienta poderosa para diagnosticar y mejorar la inferencia de modelos y puede generalizarse a otras tareas de generación estructuradas paso a paso.

Takeaways, Limitations

•

Takeaways:

◦

Presentamos un nuevo marco (STIM) para analizar las causas de errores de inferencia en LLM a nivel de token.

◦

Cuando el LLM es complejo o raro, depende más de la memoria, lo que revela que la memoria local es la principal fuente de errores.

◦

Usando STIM, se pueden predecir errores en pasos de inferencia incorrectos.

◦

También se aplica a otras tareas de creación estructuradas paso a paso.

•

Limitations:

◦

La evaluación del desempeño de STIM puede limitarse a puntos de referencia y conjuntos de datos específicos.

◦

Tal vez se necesiten más investigaciones sobre la definición y medición de la memoria.

◦

Es posible que no todos los tipos de errores de inferencia puedan capturarse perfectamente.

Ver PDF

Made with Slashpage