Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Transferencia de estructura: un cálculo basado en inferencias para la transformación de representaciones

Modelos básicos del Conjunto de Patología para MIDOG 2025, Tema 2: Clasificación de la mitosis atípica

AudioCodecBench: un punto de referencia integral para la evaluación de códecs de audio

Comprender el espacio es una ciencia exacta: solo los modelos de razonamiento avanzados pueden resolver tareas de comprensión espacial.

DaMoC: Selección eficiente del modelo de lenguaje grande óptimo para ajustar tareas de dominio basadas en datos y compresión de modelos

Técnicas modulares para la generación de datos sintéticos de contexto largo en el entrenamiento y la evaluación de modelos lingüísticos

EZhouNet: Un marco basado en redes neuronales gráficas e intervalos de anclaje para la detección de eventos de sonido respiratorio

AImoclips: Un punto de referencia para evaluar la transmisión de emociones en la generación de texto a música

Copiloto de tiempo

RL basado en modelos de primer orden mediante retropropagación desacoplada

Estudio piloto sobre IA generativa y pensamiento crítico en las aulas de educación superior

Beacon: Cuantización posterior al entrenamiento con selección de cuadrícula integrada

¿Está la inteligencia artificial transformando el panorama de la comunidad académica internacional de las geociencias?

Atención vectorizada con codificación aprendible para transformadores cuánticos

Trasplantar y luego regenerar: un nuevo paradigma para la ampliación de datos de texto

Sinergia de profundidad y amplitud en RLVR: Desbloqueo de las ganancias de razonamiento de LLM con exploración adaptativa

MultiGen: Generador de voz multilingüe para niños con LLM

StreetViewAI: Haciendo que Street View sea accesible mediante IA multimodal sensible al contexto

IA a nivel de calle: ¿Están los modelos de lenguaje de gran tamaño preparados para los juicios del mundo real?

El lenguaje de esquema conceptual KG-ER

¡Mucha moda! Multicondicionamiento para la generación de imágenes mediante la combinación de boceto y texto

Generación de vídeo condicional para una compresión de vídeo de alta eficiencia

TriCLIP-3D: Un marco unificado y eficiente en parámetros para la base visual 3D trimodal basado en CLIP

Clasificación detallada de fracturas de muñeca pediátricas teniendo en cuenta la demografía

Un análisis de los métodos de diferencia temporal de valores de acción que aprenden valores de estado

Descomposición de parámetros estocásticos

Autorregresivo vs. Flow-Matching: un estudio comparativo de paradigmas de modelado para la generación de texto a música

MiniCPM4: LLM ultraeficientes en dispositivos finales

Evaluación de la eficacia del razonamiento basado en LLM para la programación de tareas multiobjetivo en HPC

¿Cómo puedo publicar mis puntos de referencia de LLM sin revelar las verdaderas respuestas?

Optimización de la transferibilidad de módulos en superresolución de imagen única: evaluación de universalidad y bloques residuales de ciclo

Transformador de máscara transferible: segmentación semántica entre dominios con estimación de transferibilidad adaptativa a regiones

RBT4DNN: Pruebas de redes neuronales basadas en requisitos

Aprendizaje robusto de imitación fuera de línea mediante la unión de trayectorias a nivel estatal

Más allá de la holografía: los fundamentos de la gravedad cuántica entrópica del procesamiento de imágenes

Knighter: Transformación del análisis estático con comprobadores sintetizados por LLM

¡FRIDA al rescate! Análisis de la efectividad de los datos sintéticos en el razonamiento de sentido común basado en objetos para la respuesta ante desastres.

CoDiff: Modelo de difusión condicional para la detección colaborativa de objetos 3D

Aprendizaje rápido de palabras mediante el aprendizaje meta en contexto

Método de muestreo de incrustación de imágenes para subtítulos diversos

¿Es un modelo de base basado en imágenes naturales de gran tamaño superior a un modelo específico de retina para detectar enfermedades oculares y sistémicas?

Puntuación de valores atípicos basada en histograma extendido (EHBOS)

Un estudio sobre la recuperación de gráficos y la generación aumentada de modelos de lenguaje grandes personalizados

Rompiendo el cuello de botella del contexto en la predicción de series de tiempo largas

Defensa de los LVLM contra ataques visuales mediante supervisión de percepción parcial

ACING: Actor-Crítico para el Aprendizaje Instruccional en LLM de Caja Negra

Aprendizaje experiencial basado en Kolb para agentes generalistas con un rendimiento en ciencia de datos de Kaggle de nivel humano

Cuantificación del error de calibración en redes neuronales mediante teoría basada en evidencia

Entrenamiento robusto de modelos generativos implícitos para distribuciones multivariadas y de cola pesada con una pérdida estadística invariante

Aprendizaje a partir de 10 demostraciones: aprendizaje de políticas generalizable y eficiente con marcos de asequibilidad orientados

AutoPETIII: La Frontera del Rastreador. ¿Qué Frontera?

Red de secuencia de entrada larga para pronóstico de series temporales largas

FFHFlow: Generación de comprensión diestra, diversa y consciente de la incertidumbre mediante inferencia variacional de flujo

Unisolver: Transformadores de EDP condicionales hacia solucionadores de EDP neuronales universales

MTP: una abstracción de lenguaje tipificado por significado para la programación integrada con IA

Difusión de codificaciones de modelos de lenguaje para la generación de secuencias de proteínas

Transferencia de estilo a los cómics de Calvin y Hobbes mediante difusión estable

Autonomización, no automatización: actividades y necesidades de los verificadores de datos europeos como base para el diseño de sistemas de IA centrados en el ser humano

Verificación del plan para agentes de finalización de tareas incorporadas basados en LLM

EigenBench: una medida comparativa del comportamiento de la alineación de valores

Oyster-I: Más allá del rechazo: Alineación de seguridad constructiva para modelos lingüísticos responsables

Ampliación de FKG.in: Hacia una red de trazabilidad de reclamaciones alimentarias

DeepVIS: Uniendo el lenguaje natural y la visualización de datos mediante el razonamiento paso a paso

Teoría de la mente mediante inferencia activa: un marco para la cooperación entre múltiples agentes

CP-Bench: Evaluación de modelos de lenguaje grandes para modelado de restricciones

Axiomática de elecciones restringidas por órdenes lineales de conjuntos con mínimo como alternativa

Incitación guiada por DMN: un marco para controlar el comportamiento LLM

Base computacional de la toma de decisiones en simulación social en LLM

Ciencia en diferentes idiomas: evaluación de la traducción multilingüe de artículos científicos para el Máster en Derecho

Mejora de FKG.in: automatización del análisis de la composición de alimentos indios

WASP: Un enfoque de espacio-peso para detectar la espuria aprendida

Modelo de creencias transferibles en circuitos cuánticos

PIN: Un conjunto de datos intensivo en conocimiento para documentos multimodales emparejados e intercalados

(Ir)racionalidad en IA: estado del arte, desafíos de investigación y preguntas abiertas

Manual de inteligencia

ChronoGraph: un conjunto de datos de series temporales multivariadas basadas en gráficos del mundo real

Activaciones delta: una representación para modelos de lenguaje grandes y ajustados

DEXOP: Un dispositivo para la transferencia robótica de la manipulación humana diestra

Hacia una visión unificada del modelo de lenguaje grande después del entrenamiento

Sin pensamientos, solo IA: Las recomendaciones sesgadas de LLM limitan la intervención humana en la selección de currículos

IPA: Un marco de proyección de entrada que preserva la información para una adaptación eficiente del modelo de base

SSGaussian: Transferencia de estilo 3D consciente de la semántica y que preserva la estructura

Predicción de disponibilidad de estacionamiento mediante la fusión de datos de múltiples fuentes con un transformador espacio-temporal invertido mejorado con aprendizaje autosupervisado

PARCO: ASR contextual robusto aumentado con fonemas mediante desambiguación de entidades contrastivas

AUDETER: Un conjunto de datos a gran escala para la detección de audio deepfake en mundos abiertos

De editor a estimador de geometría densa

Aprendizaje de representación de entidades desacopladas para la clasificación de anuncios de Pinterest

Los hechos se desvanecen rápidamente: evaluación de la memorización de conocimientos médicos obsoletos en modelos de lenguaje extensos

HumAine-Chatbot: IA conversacional personalizada en tiempo real mediante aprendizaje por refuerzo

Aprendizaje por refuerzo para un control robusto del envejecimiento de sistemas de baterías de iones de litio con verificación formal basada en datos

Un estudio empírico de vulnerabilidades en paquetes de Python y su detección

¿Cuántos pacientes podríamos salvar con antecedentes de LLM?

Aprendizaje de la percepción activa mediante la optimización de preferencias autoevolutiva para la puesta a tierra de la GUI

MAGneT: Generación coordinada de sesiones sintéticas multiturno de asesoramiento en salud mental con múltiples agentes

VisioFirm: Herramienta multiplataforma de anotación asistida por IA para visión artificial

Cruzando la brecha entre especies: transferir el aprendizaje del habla a los sonidos animales

Conjunto YOLO para la detección multiespectral de defectos en componentes de turbinas eólicas mediante UAV

La atención como filtro adaptativo

TAGAL: Generación de datos tabulares utilizando métodos LLM de Agentic

Mejora de la recuperación de documentos técnicos para RAG

MiniCPM4: LLM ultraeficientes en dispositivos finales

Created by

Haebom

Autor

Equipo MiniCPM, Chaojun Xiao, Yuxuan Li, Xu Han, Yuzhuo Bai, Jie Cai, Haotian Chen, Wentong Chen, Qiuzuo Li, Siyuan Li, Wenhao Li, Xianghui Sun, Peijun Tang, Fangzheng Wang, Feng Wang, Shuo Wang, Yudong Wang, Zheng Wang, Yesai Wu, Zhenyu Xiao, Jie Zhou, Jie Zhou, Wei Zhou, Yanghao Zhou, Zihan Zhou, Zixuan Zhou, Zhiyuan Liu, Guoyang Zeng, Chao Jia, Dahai Li, Maosong Sun

Describir

MiniCPM4 es un modelo de lenguaje a gran escala (LLM) altamente eficiente, diseñado para dispositivos de usuario final. Logra su eficiencia mediante innovaciones en cuatro áreas clave: arquitectura del modelo (InfLLM v2), datos de entrenamiento (UltraClean, UltraChat v2), algoritmos de entrenamiento (ModelTunnel v2, despliegue por fragmentos, BitCPM) y sistema de inferencia (CPM.cu). InfLLM v2 es un mecanismo de atención dispersa entrenable que acelera los pasos de prellenado y decodificación para el procesamiento de contextos extensos. UltraClean y UltraChat v2 son estrategias eficientes y precisas de filtrado y generación de datos de preentrenamiento, así como conjuntos de datos integrales para el ajuste fino mediante aprendizaje supervisado. Con estos conjuntos de datos, logramos un rendimiento satisfactorio del modelo con tan solo 8 billones de tokens de entrenamiento. ModelTunnel v2 es un algoritmo para la búsqueda eficiente de estrategias de preentrenamiento, que mejora los métodos de postentrenamiento existentes mediante el despliegue por fragmentos y BitCPM. CPM.cu integra atención dispersa, cuantificación de modelos y muestreo especulativo para lograr un prellenado y una decodificación eficientes. Para satisfacer las diversas necesidades de los dispositivos, presentamos MiniCPM4.1, un modelo de inferencia híbrido disponible en dos versiones, con parámetros de 0.5B y 8B, y utilizable tanto en modo de inferencia profunda como en modo de no inferencia. Nuestras evaluaciones muestran que MiniCPM4 y MiniCPM4.1 superan a modelos de código abierto de tamaño similar en las pruebas de rendimiento, y la versión de 8B, en particular, muestra mejoras significativas en la comprensión y generación de secuencias largas.

Takeaways, Limitations

•

Takeaways:

◦

Demuestra el potencial para desarrollar modelos de lenguaje a gran escala que funcionen eficientemente en los dispositivos del usuario final.

◦

Se presenta una nueva arquitectura y algoritmo para mejorar la velocidad del procesamiento de contextos largos.

◦

Reduzca el tamaño de los datos de entrenamiento mediante estrategias de generación y filtrado de datos eficientes.

◦

Disponible en una variedad de versiones de modelos para satisfacer diversos requisitos de dispositivos.

◦

Mejoras superiores de rendimiento y velocidad en comparación con modelos de código abierto de tamaño similar.

•

Limitations:

◦

Falta de análisis detallado del rendimiento y la eficiencia del modelo de inferencia híbrido en MiniCPM4.1.

◦

Se necesitan más investigaciones para determinar la generalización de las tecnologías innovadoras presentadas.

◦

Es necesario un análisis comparativo más completo con otros LLM.

◦

El tamaño de los datos de entrenamiento de 8 billones de tokens sigue siendo significativo y se necesita investigación para encontrar formas de mantener el rendimiento con aún menos datos.

Ver PDF

Made with Slashpage