Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

NVIDIA Nemotron Nano 2: Un modelo de razonamiento híbrido Mamba-Transformer preciso y eficiente

Estabilización de potencia para centros de datos de entrenamiento de IA

Un estudio sistemático de modelos de aprendizaje profundo y métodos xAI para la detección de regiones de interés en exploraciones de resonancia magnética

Documentación de la implementación con Fabric: un repositorio de gobernanza de IA en el mundo real

Surya: Modelo fundamental para la heliofísica

Solo necesitas ejemplos concretos: Cómo maximizar el GRPO después del entrenamiento con presupuestos de anotación

MCLPD: Aprendizaje contrastivo multivista para la detección de EP basada en EEG en diferentes conjuntos de datos

FinAgentBench: Un conjunto de datos de referencia para la recuperación de agentes en la respuesta a preguntas financieras

VerilogLAVD: Generación de reglas asistida por LLM para la detección de vulnerabilidades en Verilog

Kourkoutas-Beta: Un optimizador de Adam impulsado por Sunspike con estilo desértico

SecFSM: Generación de código Verilog guiada por gráficos de conocimiento para máquinas de estados finitos seguras en sistemas en chip

Fortaleciendo la Web Agenética: Una Arquitectura de Confianza Cero Unificada contra Amenazas a la Capa Lógica

LATTE: Aprendizaje de transacciones alineadas e incrustaciones textuales para clientes bancarios

Predicador: Sistema de agencia de papel a video

Agoran: Un mercado abierto y agente para la automatización de RAN 6G

Codiseño arquitectónico para la detección de anomalías de disparo cero: desacoplamiento de la representación y fusión dinámica de características en CLIP

IBPS: Sistema de predicción de fianzas para la India

Diagnóstico de la memorización en el razonamiento en cadena, una ficha a la vez

TS-Insight: Visualización del muestreo de Thompson para verificación y XAI

Cuando una mejor visión conduce a la ceguera: un estudio diagnóstico del cuello de botella de información en los modelos de subtítulos de imágenes CNN-LSTM

Semilla-X: Desarrollo de un Máster de Traducción Multilingüe Sólido con los Parámetros 7B

Generación de bibliotecas pMHC-I guiadas por estructura mediante modelos de difusión

Aprendizaje enmascarado intermodal para la predicción de supervivencia en pacientes con CPNM tratados con ICI

MCA-RG: Mejora de los LLM con la alineación de conceptos médicos para la generación de informes de radiología

KEA Explain: Explicaciones de las alucinaciones mediante el análisis del núcleo gráfico

Evidencia empírica de falsificación de alineación en un LLM pequeño y técnicas de mitigación basadas en indicaciones

Un estudio de los modelos fundamentales para la IoT: taxonomía y análisis basado en criterios

Redes de regularización profunda para problemas inversos con operadores ruidosos

LaMP-Cap: Generación de títulos de figuras personalizados con perfiles de figuras multimodales

Sobre la imposibilidad fundamental del control de las alucinaciones en grandes modelos lingüísticos

Compresión de secuencias de tokens sin pérdidas mediante metatokens

Generación versátil de señales cardiovasculares con un transformador de difusión unificado

Selección flexible de herramientas mediante la alineación de atributos de baja dimensión de la visión y el lenguaje

Mutarjim: Impulsando la traducción bidireccional árabe-inglés con un modelo de lenguaje reducido

MMiC: Mitigación de la incompletitud de la modalidad en el aprendizaje federado en clústeres

Computación colaborativa de borde a nube para inteligencia distribuida y optimización de modelos: una encuesta

Sadeed: Impulsando la diacritización del árabe mediante un modelo de lenguaje reducido

Tarea 5 de Annif en SemEval-2025: XMTC tradicional ampliado con LLM

CaRL: Aprendizaje de políticas de planificación escalables con recompensas sencillas

Sobre la consistencia de las explicaciones de GNN para la detección de malware

Cequel: Consulta rentable de modelos lingüísticos grandes para agrupamiento de texto

Kuwain 1.5B: Un SLM árabe mediante inyección de lenguaje

MuSeD: Un conjunto de datos multimodales en español para la detección del sexismo en vídeos de redes sociales

TextSplat: Fusión semántica guiada por texto para salpicadura gaussiana generalizable

VerifiAgent: un agente de verificación unificado en el razonamiento de modelos de lenguaje

Manipulación de largo horizonte incorporada con generación de código de bucle cerrado y adaptación incremental de pocos disparos

Revisando la detección fuera de distribución en la detección de objetos en tiempo real: de los problemas de referencia a un nuevo paradigma de mitigación

Un caso de especialización en entidades no humanas

Cadena de inferencia pragmática (PIC): mejora del razonamiento de los LLM sobre lenguaje tóxico implícito auténtico

Sintético vs. Oro: El rol de las etiquetas y datos generados por LLM en la detección del ciberacoso

Innamark: un método para ocultar información mediante el reemplazo de espacios en blanco

El pensamiento inverso guiado por ontología fortalece los modelos de lenguaje grandes en la respuesta a preguntas de gráficos de conocimiento

RefineCoder: Mejora iterativa de modelos de lenguaje grandes mediante refinamiento crítico adaptativo para la generación de código

Configuración única, seguridad permanente: Protocolo de agregación de aprendizaje federado seguro de configuración única con confidencialidad directa e inversa para usuarios dinámicos

Optimización de indicaciones autosupervisadas

Aprendiendo a generar pruebas unitarias para la depuración automatizada

Modelado de la discriminación con abstracción causal

Modelos de lenguaje amplios para la revisión bibliográfica automatizada: una evaluación de la generación de referencias, la redacción de resúmenes y la redacción de reseñas

Agente de evaluación: marco de evaluación eficiente y rápido para modelos generativos visuales

Aprendizaje rápido guiado por el conocimiento para el aseguramiento de la calidad de solicitudes en la revisión de código público

Ajuste de modelos fundamentales para codificar diagnósticos a partir de registros sanitarios veterinarios

Teuken-7B-Base y Teuken-7B-Instruct: Hacia los LLM europeos

Grounded-VideoLLM: Afinando la base temporal de grano fino en modelos de lenguaje de video de gran tamaño

Aprendizaje continuo para la fusión de datos multimodales de una pinza blanda

BoostTrack++: uso de información de tracklets para detectar más objetos en el seguimiento de múltiples objetos

OPDR: Reducción de la dimensión con preservación del orden para la integración semántica de datos científicos multimodales

CREMA: un autocodificador enmascarado regularizado contrastivo para diagnósticos de ECG robustos en diferentes dominios clínicos

Generación de terreno 3D con autómatas celulares 2D

Modelos de lenguaje desconectados y listos: Descomposición de expertos en modelos de lenguaje en el momento de la inferencia

Utilizar una arquitectura cognitiva para considerar la antinegritud en el diseño y desarrollo de sistemas de IA

ITL-LIME: Aprendizaje por transferencia basado en instancias para mejorar las explicaciones locales en entornos de datos con recursos limitados

ThinkTuning: Inculcando reflexiones cognitivas sin destilación

Un “teorema del buen regulador” para agentes encarnados

Agentes prescriptivos basados en RAG para mantenimiento automatizado (PARAM)

Un subobjetivo a la vez: generalización de disparo cero a requisitos de lógica temporal lineal arbitraria en el aprendizaje por refuerzo de múltiples tareas

Opus: Un marco de intención rápida para la generación de flujos de trabajo complejos

Exploración de los efectos de las cinco grandes personalidades y las capacidades de la IA en diálogos de negociación simulados mediante LLM

Lo que cuenta es la intención: evaluación de los intentos de los LLM de vanguardia por persuadir sobre temas perjudiciales

GATES: Programación dinámica de flujos de trabajo con enfoque en costos mediante redes de atención gráfica y estrategia de evolución

Diseño curricular automático para la coordinación humano-IA sin intervención

PersonaBench: Evaluación de modelos de IA para la comprensión de información personal mediante el acceso a datos privados (sintéticos) de usuarios

SycEval: Evaluación de la adulación en los LLM

CopyrightShield: Mejora de la seguridad del modelo de difusión contra ataques de infracción de derechos de autor

VLASCD: Un modelo de acción del lenguaje visual para charlar y tomar decisiones simultáneamente

Explorando el efecto del contenido y el formato de la explicación en la comprensión y la confianza del usuario en la atención médica

Sobre los costos de acción de aprendizaje a partir de los planes de entrada

Interacción humano-objeto a partir de instrucciones de nivel humano

Aprendizaje estratégico no lineal consciente del bienestar

CRISPR-GPT para la automatización agente de experimentos de edición genética

SceneGen: Generación de escenas 3D de una sola imagen en una sola pasada de avance

Descubrimiento de estructuras algebraicas ocultas mediante transformadores con haz con reconocimiento de rango GRPO

LiveMCP-101: Pruebas de estrés y diagnóstico de agentes habilitados para MCP en consultas desafiantes

Dinámica neuronal del robot

Diseccionando el razonamiento integrado con herramientas: un estudio y análisis empírico

"¿La entrada de la cafetería parece accesible? ¿Dónde está la puerta?". Hacia los agentes de IA geoespacial para consultas visuales.

Capacitación integral del sistema RAG de Agentic para un razonamiento de diagnóstico trazable

Los modelos numéricos superan los pronósticos meteorológicos de IA de extremos récord

EcomMMMU: Utilización estratégica de elementos visuales para modelos robustos de comercio electrónico multimodal

Tutorial sobre la unificación probabilística de la teoría de la estimación, el aprendizaje automático y la IA generativa

StreamMem: memoria caché KV independiente de consultas para la comprensión de la transmisión de vídeo

Aprendiendo a generar pruebas unitarias para la depuración automatizada

Created by

Haebom

Autor

Archiki Prasad, Elias Stengel-Eskin, Justin Chih-Yao Chen, Zaid Khan, Mohit Bansal

Describir

Este artículo revela una compensación entre generar entradas de pruebas unitarias propensas a errores y predecir con precisión las salidas de pruebas unitarias sin una respuesta correcta. Para abordar esto, proponemos UTGen, que entrena a los LLM para generar entradas de pruebas unitarias propensas a errores y corregir las salidas esperadas según las descripciones de las tareas. Dado que las pruebas generadas por el modelo pueden ser ruidosas, mejoramos las predicciones de salida de las UT aprovechando los cálculos en tiempo de prueba mediante UTDebug. Además, verificamos y retrocedemos las ediciones basadas en múltiples UT generadas para evitar el sobreajuste y facilitar eficazmente la depuración de LLM. Los resultados experimentales muestran que UTGen supera a otros modelos de referencia basados en LLM en un 7,59 % en métricas que miden tanto las entradas de UT propensas a errores como las salidas de UT correctas. Al combinarse con UTDebug, mejora la precisión de paso a 1 de Qwen2.5 32B en un 3,17 % y un 12,35 %, respectivamente, en particiones de depuración más complejas de HumanEvalFix y MBPP+, en comparación con otros modelos de referencia de generación de UT basados en LLM. Además, la retroalimentación del modelo UTGen basado en Qwen2.5 32B mejoró el rendimiento de depuración de LLM de vanguardia, como GPT-4o, en un 13,8 %. Finalmente, UTGen demuestra que, al usar Qwen2.5 7B con las 10 mejores muestras de HumanEval+, supera al modelo de recompensa de vanguardia 8B en un 4,43 % en la determinación de la corrección del código.

Takeaways, Limitations

•

Takeaways:

◦

Presentamos un enfoque novedoso para resolver el equilibrio entre generar entradas de pruebas unitarias que revelen errores y predecir salidas precisas.

◦

Se mejoró el rendimiento de generación y depuración de pruebas unitarias basadas en LLM con UTGen y UTDebug.

◦

Contribuir a mejorar la capacidad de LLM para juzgar la corrección del código

◦

Contribuyendo a mejorar el rendimiento de depuración de LLM de vanguardia

•

Limitations:

◦

Las mejoras de rendimiento de UTGen y UTDebug pueden depender del LLM (Qwen2.5) y del conjunto de datos específico. Se requiere más investigación para determinar el rendimiento de generalización en otros LLM y conjuntos de datos.

◦

Necesita crear pruebas unitarias para código complejo y evaluar el rendimiento de la depuración.

◦

Se necesita más análisis sobre la eficacia de la estrategia de prevención de sobreajuste de UTDebug.

◦

Necesidad de evaluar la aplicabilidad y escalabilidad para bases de código grandes.

Ver PDF

Made with Slashpage