Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

PRELUDIO: Un punto de referencia diseñado para exigir comprensión global y razonamiento en contextos extensos

Predicador: Sistema de agencia de papel a video

Alucinación vs. interpretación: repensando la precisión y exactitud en la extracción de datos asistida por IA para la síntesis de conocimiento

Pronóstico meteorológico descentralizado mediante aprendizaje automático distribuido y validación de modelos basados en blockchain

La IA sesgada mejora la toma de decisiones humanas pero reduce la confianza

Traducción de características personalizadas para el reconocimiento de expresiones: un método eficiente de adaptación de dominios sin fuente

Un marco neurosimbólico para la detección interpretable de ataques cognitivos en realidad aumentada

IAD-R1: Refuerzo del razonamiento consistente en la detección de anomalías industriales

EvaDrive: Optimización de políticas adversarias evolutivas para la conducción autónoma de extremo a extremo

Comprender teóricamente el aprendizaje en contexto basado en transformadores para optimizar CSMA

ASPD: Desbloqueo de la decodificación adaptativa serie-paralelo mediante la exploración del paralelismo intrínseco en LLM

BiasGym: Fantásticos sesgos en los LLM y cómo encontrarlos (y eliminarlos)

Yan: Generación fundamental de vídeo interactivo

M3-Net: Un modelo rentable basado en MLP sin gráficos para la predicción del tráfico

Redes de área corporal inalámbricas adaptativas y listas para 6G impulsadas por LLM: Estudio y marco

La ilusión del progreso: reevaluación de la detección de alucinaciones en los LLM

Sobre la comprensión de la dinámica de la capacidad del modelo en el aprendizaje continuo

WeChat-YATT: Un entrenador de RLHF simple, escalable y equilibrado

Generación mejorada de titulares personalizados mediante la eliminación de ruido de intereses falsos de comentarios implícitos

Aprendizaje curricular dinámico consciente de la dureza para un reconocimiento sólido de emociones multimodales con modalidades faltantes

Ecos de la automatización: el creciente uso de LLM en la elaboración de noticias

SIFThinker: Enfoque de imágenes con conciencia espacial para el razonamiento visual

Shuffle-R1: Marco de aprendizaje dinámico eficiente para modelos de lenguaje multimodales de gran tamaño mediante Shuffle dinámico centrado en datos

Hacia una IA agente encarnada: revisión y clasificación de la autonomía e interacción de robots impulsados por LLM y VLM

Posición: ¡El modelo actual de conferencias de IA es insostenible! Diagnóstico de la crisis de las conferencias de IA centralizadas.

MSC: Un conjunto de datos de vídeo de vida silvestre marina con segmentación terrestre y subtítulos a nivel de clip

Modelos lingüísticos de autocuestionamiento

Explorando la aplicación de la respuesta visual a preguntas (VQA) para el monitoreo de actividades en el aula

Oranits: Asignación de misiones y descarga de tareas en sistemas de información de transmisión (ITS) basados en RAN abierto mediante metaheurística y aprendizaje de refuerzo profundo

DeepWriter: Un asistente de escritura multimodal basado en hechos y en una base de conocimientos sin conexión

Selección de núcleos proporcionales a la clase para datos separables por dificultad

Preguntas y respuestas sobre el espacio en el almacén con el agente LLM

CodeJudgeBench: Evaluación comparativa de LLM como juez para tareas de codificación

AmpLyze: un modelo de aprendizaje profundo para predecir la concentración hemolítica

EXAONE Path 2.0: Modelo de Fundamentos de Patología con Supervisión Integral

Pensamiento GLM-4.1V y GLM-4.5V: Hacia un razonamiento multimodal versátil con aprendizaje de refuerzo escalable

¿Por qué los programas de máster en derecho (LLM) de código abierto tienen dificultades con el análisis de datos? Un estudio empírico sistemático

Codificador automático de máscara de gráfico con reconocimiento de discrepancias

Ataques generativos conscientes de la estructura semántica para una mejor transferibilidad adversarial

Comparación cuantitativa de técnicas de ajuste fino para modelos de difusión latente preentrenados en la generación de imágenes SAR invisibles

PromptTSS: Un enfoque basado en indicaciones para la segmentación interactiva de series de tiempo con granularidad múltiple

15.500 segundos: Clasificación eficiente de UAV mediante EfficientNet y ajuste fino de peso ligero

Los ataques inmediatos revelan la eliminación superficial del conocimiento en los métodos de desaprendizaje

Poda de datos mediante maximización de la información

CCL-LGS: Aprendizaje de libros de códigos contrastivos para la dispersión gaussiana del lenguaje 3D

Preocupaciones de seguridad para modelos de lenguaje grandes: una encuesta

¿Está lista la optimización cuántica? Un esfuerzo hacia la compresión de redes neuronales mediante computación cuántica adiabática.

Desentrañando el CHAD iterativo

FreeKV: Mejora de la recuperación de caché KV para una inferencia LLM eficiente

LaDi-WM: Un modelo mundial basado en la difusión latente para la manipulación predictiva

Rotación ordenada por secuencia agrupada: optimización de la transformación de rotación para cuantificación gratuita

Bandidos multiarmados con presupuesto adaptable para IoT con restricciones dinámicas de recursos

Transformadores de visión en la agricultura de precisión: un estudio exhaustivo

Pronóstico de series temporales orientado a objetivos: Diseño del marco de base

CAPTURe: Evaluación del razonamiento espacial en modelos de lenguaje visual mediante el conteo de objetos ocluidos

FinSage: Un sistema RAG multiaspecto para la presentación de informes financieros y la respuesta a preguntas.

GraspClutter6D: Un conjunto de datos a gran escala del mundo real para una percepción y comprensión robustas en escenas desordenadas

Hiperflujo: La poda revela la importancia de los pesos

ToolACE-R: Entrenamiento iterativo basado en modelos y refinamiento adaptativo para el aprendizaje de herramientas

UniOcc: Un punto de referencia unificado para la previsión y predicción de la ocupación en la conducción autónoma

VectorFit: Ajuste fino adaptativo de vectores singulares y sesgados de modelos de base preentrenados

BitDecoding: Desbloqueo de núcleos tensoriales para LLM de contexto largo con caché KV de bajo bit

Análisis de sentimientos explicable con DeepSeek-R1: rendimiento, eficiencia y aprendizaje rápido

Aprendizaje continuo para múltiples modalidades

Avanzando con MAPF hacia el mundo real: un banco de pruebas realista multiagente escalable (SMART)

Fusión de LED: mitigación de conflictos de seguridad y utilidad en la fusión de modelos con ubicación-elección-disjunta

Impulso de la generalización entre problemas en un solucionador combinatorio neuronal basado en difusión mediante la adaptación del tiempo de inferencia

Intercambio rítmico: un paradigma bioinspirado para el aprendizaje adaptativo de cero disparos en redes neuronales

Medición de la diversidad en conjuntos de datos sintéticos

Modelado de retroalimentación retardada con funciones de influencia

Ruleta de despliegue: un enfoque de inferencia probabilística para el escalamiento en el tiempo de inferencia de LLM mediante métodos de Monte Carlo basados en partículas

CLoQ: Mejora del ajuste fino de LLM cuantificados mediante la inicialización de LoRA calibrada

Fleurs-SLU: Un referente multilingüe masivo para la comprensión del lenguaje hablado

EDO neuronales interpretables para el descubrimiento de redes reguladoras de genes bajo perturbaciones

Un transformador ligero con atención cruzada de fase únicamente para la autenticación biométrica invariante a la iluminación

Comprensión de los modelos de visión basados en transformadores mediante inversión

INSIGHT: Análisis explicable de imágenes médicas con supervisión débil

Visual SLAMMOT considerando múltiples modelos de movimiento

Un enfoque sin entrenamiento para la transferencia de estilos musicales con modelos de difusión latente

Optimización multiobjetivo en el espacio de diseño de CPU: la atención es todo lo que necesitas

DiRW: Aprendizaje de dígrafos con conocimiento de trayectoria para la heterofilia

Diversificación de comportamientos políticos con curiosidad conductual extrínseca

Verbalización de la memoria episódica mediante representaciones jerárquicas de la experiencia robótica a lo largo de la vida

Las redes neuronales se generalizan en datos de baja complejidad

Pruebas de consistencia basadas en el conocimiento de modelos lingüísticos grandes

Algoritmo de conjunto seguro implícito para el aprendizaje de refuerzo demostrablemente seguro

Un modelo explicable basado en transformadores para la detección de correos electrónicos de phishing: un enfoque de modelo de lenguaje amplio

Reducción de costos de comunicación para el conteo de subgrafos bajo privacidad diferencial local mediante funciones hash

Errores de cálculo y razonamiento matemático en modelos lingüísticos amplios

OpenCUA: Fundamentos abiertos para agentes de uso informático

Informe técnico del Compass-Thinker-7B

TextQuests: ¿Qué tan buenos son los LLM en videojuegos basados en texto?

Sobre la definición de inteligencia

Más allá de la precisión: cómo la sensibilidad metacognitiva de la IA mejora la toma de decisiones asistida por IA

LAPO: Internalización de la eficiencia del razonamiento mediante la optimización de políticas adaptativas a la longitud

FAIRGAME: un marco para el reconocimiento de sesgos de agentes de IA mediante la teoría de juegos

MedRep: Representación de conceptos médicos para modelos básicos de registros médicos electrónicos generales

Un optimizador de clave aleatoria para la optimización combinatoria

Entrenamiento cruzado federado de estudiantes para una generalización robusta en condiciones de heterogeneidad de datos

Aprovechamiento de modelos lingüísticos amplios para la toma de decisiones de relevancia en la recuperación de casos legales

CodeJudgeBench: Evaluación comparativa de LLM como juez para tareas de codificación

Created by

Haebom

Autor

Hongchao Jiang, Yiming Chen, Yushi Cao, Hung-yi Lee, Robby T. Tan

Describir

Este artículo presenta CodeJudgeBench, un novedoso benchmark que utiliza modelos de lenguaje a gran escala (LLM) como evaluadores de código (LLM como juez). CodeJudgeBench está diseñado para evaluar el rendimiento de los modelos LLM como juez en tres tareas de codificación: generación de código, modificación de código y generación de pruebas unitarias. Tras realizar una evaluación comparativa exhaustiva de 26 modelos LLM como juez, observamos que los modelos de vanguardia con capacidades de razonamiento superan significativamente a los modelos sin razonamiento. Incluso modelos de razonamiento relativamente pequeños, como Qwen3-8B, superaron en hasta un 70 % a los modelos LLM como juez especialmente entrenados con tamaños de hasta 70B. Sin embargo, todos los modelos mostraron una aleatoriedad significativa al evaluar las tareas de codificación, y en las tareas de comparación por pares, incluso cambiar el orden de presentación de las respuestas afectó significativamente la precisión. Además, observamos que el rendimiento de los modelos LLM como juez variaba al evaluar código y pruebas unitarias escritas por diferentes LLM. Esta sensibilidad plantea dudas sobre la fiabilidad y la consistencia de LLM como juez en escenarios de codificación. Finalmente, estudiamos la estrategia óptima de incitación para LLM como juez, y descubrimos que las comparaciones por pares superaron a los juicios de puntuación única, y que retener comentarios e inferencias de la respuesta LLM completa y sin procesar mejoró el rendimiento del juicio.

Takeaways, Limitations

•

Takeaways:

◦

CodeJudgeBench proporciona un punto de referencia estándar para evaluar el rendimiento de los modelos LLM como juez.

◦

Los LLM con habilidades de pensamiento crítico se desempeñan mejor en tareas de evaluación de código.

◦

Incluso los modelos relativamente pequeños pueden superar a los más grandes.

◦

Descubrimos que una estrategia de estímulo que incluía comparaciones por pares y anotaciones e información de inferencia fue eficaz.

•

Limitations:

◦

Todos los modelos LLM-as-a-Judge aún muestran una aleatoriedad significativa.

◦

El orden en que se presentan las respuestas puede afectar significativamente los resultados del juicio.

◦

Existe una falta de consistencia en los resultados de la evaluación del código generado por diferentes LLM.

◦

Se plantean preocupaciones sobre la fiabilidad y la consistencia del Máster en Derecho como Juez.

Ver PDF

Made with Slashpage