Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CMPhysBench: Un punto de referencia para la evaluación de grandes modelos lingüísticos en física de la materia condensada

Ada-TransGNN: Un modelo de predicción de la calidad del aire basado en redes convolucionales de grafos adaptativos

Desaprender como ablación: Hacia un punto de referencia falsable para el descubrimiento científico generativo

Modelado consistente de oponentes estáticos en juegos de información imperfecta

Encontrar valores atípicos en un pajar: detección de anomalías en escenas de nubes de puntos grandes

Inteligencia artificial agente para software: reflexiones de la comunidad de ingeniería de software

Atención a la brecha (lingüística): hacia la exploración de los límites numéricos y translingüísticos de los LVLM

Rompiendo el cuello de botella de la exploración: aprendizaje de refuerzo basado en rúbricas para razonamiento general de LLM

Dream to Chat: Aprendizaje de refuerzo basado en modelos sobre diálogos con modelado de creencias del usuario

Un estudio sobre las amenazas a los sistemas de autenticación de voz y anti-suplantación de identidad

Inteligencia Artificial Generativa y Agentes en Investigación y Docencia

CALR: Descomposición adaptativa correctiva de bajo rango para una compresión eficiente de capas de modelos de lenguaje grandes

Análisis comparativo de algoritmos de planificación de trayectorias de vehículos aéreos no tripulados para una navegación eficiente en entornos urbanos 3D

Recuperación de retroalimentación mejorada mediante un libro de errores neuronales en contexto

De la confianza al colapso en la solidez fáctica del LLM

Vectores y gradientes en la tarea

Aprendizaje en juegos de Stackelberg multiobjetivo repetidos con manipulación de resultados

NVIDIA Nemotron Nano 2: Un modelo de razonamiento híbrido Mamba-Transformer preciso y eficiente

DLLMQuant: Cuantización de modelos de lenguaje grandes basados en difusión

LLM - Autocodificadores lineales mejorados para recomendaciones

Aprovechamiento de GNN para mejorar el método MEF en la predicción del ENSO

Matizado facial guiado por incertidumbre para una transformación facial consciente de la oclusión

Un nuevo alumno en el aula: Explorando las percepciones de los estudiantes sobre los asistentes de codificación de IA

Marco basado en modelos de lenguaje amplio para la detección explicable de ciberataques en sistemas de control de generación automática

SKA-Bench: Un punto de referencia preciso para evaluar la comprensión del conocimiento estructurado de los LLM

Modelos de lenguaje de la Fundación Apple Intelligence: Informe tecnológico 2025

SE-VLN: Un marco de navegación visual-lingüística autoevolutivo basado en modelos lingüísticos multimodales de gran tamaño

Clasificación detallada de fracturas de muñeca pediátricas teniendo en cuenta la demografía

Krul: Restauración de estado eficiente para conversaciones multi-turno con intercambio dinámico de KV entre capas

Iluminación de escena guiada por altitud solar

Un sistema agente para el diagnóstico de enfermedades raras con razonamiento trazable

Inferencia de espectros a estructura y de estructura a espectros a lo largo de la tabla periódica

UAD: Destilación de Affordance no supervisada para la generalización en manipulación robótica

Debate para detectar: reformulación de la detección de desinformación como un debate del mundo real con modelos de lenguaje amplios

EVM-Fusion: Una visión explicable de la arquitectura Mamba con fusión algorítmica neuronal

RePPL: Recalibración de la perplejidad mediante la incertidumbre en la propagación semántica y la generación del lenguaje para la detección de alucinaciones con control de calidad explicable

Revisando SSL para la detección de eventos de sonido: fusión complementaria y posprocesamiento adaptativo

Interpretabilidad guiada por conceptos mediante fragmentación neuronal

Descubriendo el panorama de la implementación de LLM en la práctica: un estudio empírico

Un grafo basado en ontologías RAG para normas jurídicas: un enfoque jerárquico, temporal y determinista

Jailbreak a nivel de prellenado: un análisis de riesgo de caja negra de modelos de lenguaje grandes

Modelo de videoclip para la interpretación de ecocardiografía multivista

Un modelo híbrido de CNN-Transformador totalmente convolucional para la detección de enfermedades inherentemente interpretable a partir de imágenes del fondo de ojo de la retina

M$^2$IV: Hacia un aprendizaje multimodal en contexto eficiente y detallado mediante la ingeniería de representación

Aprendizaje modulado por recompensa basado en ruido

Ajuste más rápido y eficiente de parámetros con reducción de redundancia de tokens

UniGenX: un modelo generativo unificado que combina secuencia, estructura y función para acelerar el diseño científico en proteínas, moléculas y materiales.

Evaluación colaborativa de textos deepfake con sistemas de diálogo que fomentan la deliberación

Los modelos de lenguaje grandes se generalizan mal en cuanto a longitud de opciones, tipos de problemas y reemplazos de sustantivos irrelevantes

TableTalk: Andamiaje del desarrollo de hojas de cálculo con un agente de lenguaje

StagFormer: Decodificación de transformadores escalonados en el tiempo para capas en ejecución en paralelo

Entrenamiento de redes neuronales demostrablemente seguras mediante análisis de alcanzabilidad de zonótopos híbridos

Pruebas de penetración basadas en inteligencia artificial generativa: una comparación entre Claude Opus, GPT-4 y Copilot

Coordinación segura de múltiples agentes mediante exploración entrópica

TL-Training: Un marco basado en tareas y características para entrenar grandes modelos de lenguaje en el uso de herramientas

Dimensiones culturales de la percepción de la IA: análisis de expectativas, riesgos, beneficios, compensaciones y valor en Alemania y China

CAD-Assistant: VLLM con herramientas mejoradas como solucionadores de tareas CAD genéricas

Las brechas de percepción en riesgo, beneficio y valor entre los expertos y el público desafían la IA socialmente aceptada

Planificación jerárquica de POMDP orientada a objetos para la reorganización de objetos

De las intenciones a las conversaciones: Generación de diálogos basados en intenciones con aprendizaje contrastivo para la clasificación multiturno

Aprendizaje de refuerzo seguro mediante el modelo de privacidad Shuffle

Superar el cambio de etiquetas con el aprendizaje federado basado en objetivos

Análisis comparativo de explicaciones de XAI con evaluaciones alineadas con las necesidades humanas

HonestCyberEval: Un punto de referencia de riesgo cibernético de IA para la explotación automatizada de software

Aprovechamiento de rutas multifacéticas para el aprendizaje de la representación de gráficos heterogéneos

GeNet: un copiloto multimodal basado en LLM para la topología y configuración de redes

ChatGPT no confía en los aficionados de los Chargers: la sensibilidad de la barandilla en contexto

Ego-Foresight: Aprendizaje autosupervisado de representaciones conscientes del agente para un mejor aprendizaje presencial

Exploración de la robustez de los modelos lingüísticos para la respuesta a preguntas tabulares mediante el análisis de la atención

Aprendizaje del condado a partir de píxeles: predicción del rendimiento del maíz con aprendizaje de instancias múltiples ponderado por la atención

Memory Augment es todo lo que necesita para restaurar la imagen

Replanteando los cambios en la distribución: análisis empírico y modelado inductivo para datos tabulares

DiffBlender: Modelos de difusión de texto a imagen multimodales, versátiles y componibles

Más allá de los patrones discriminantes: sobre la robustez de los conjuntos de reglas de decisión

Aprendizaje profundo bayesiano para segmentación para aterrizaje planetario seguro y autónomo

ST-Raptor: Preguntas y respuestas de tabla semiestructurada con tecnología LLM

Ruta y ejecución: correspondencia auditable de tarjetas de modelo e implementación a nivel de especialidad

Agentes con LLM para el mapeo del panorama competitivo en la debida diligencia de activos farmacéuticos

Respuesta y evaluación rápida para prevenir relaciones parasociales con chatbots

Maniobras con reconocimiento de perfiles: un sistema dinámico multiagente para la resolución robusta de problemas GAIA por AWorld

LLM multiagente como defensores de la ética para sistemas basados en IA

Selección de vecinos guiada por características para la evaluación de predicciones de modelos por parte de no expertos

Arquitectura de la colaboración clínica: sistemas de razonamiento multiagente para la VQA médica multimodal

MRAG: Elucidación del espacio de diseño de la generación aumentada por recuperación multimodal

Rompecabezas: De la visión a la comprensión y al razonamiento en modelos de visión-lenguaje

La influencia de la sofisticación agencial inspirada en el ser humano en los razonadores estratégicos impulsados por el LLM

YuLan-OneSim: Hacia la próxima generación de simuladores sociales con grandes modelos de lenguaje

Consenso en movimiento: un caso de racionalidad dinámica del aprendizaje secuencial en agregación de probabilidad

¿Pueden los modelos de lenguaje grandes actuar como ensambladores para múltiples GNN?

Planificación iterativa pesimista con RNN para POMDP robustos

Aprendizaje de refuerzo seguro en entornos de caja negra mediante blindaje adaptativo

Integración de un modelo de lenguaje amplio para un mejor descubrimiento causal

Una encuesta sobre el descubrimiento causal: teoría y práctica

Interfaces generativas para modelos de lenguaje

Interpolación de identidades de hablantes en el espacio de incrustación para la expansión de datos

Informe técnico de VibeVoice

LSD-3D: Generación de escenas de conducción 3D a gran escala con base geométrica

Comprensión del razonamiento integrado con herramientas

Las emociones como representaciones ordinales conscientes de la ambigüedad

Comprobación de modelos en tiempo real para la planificación reactiva de robots de circuito cerrado

NVIDIA Nemotron Nano 2: Un modelo de razonamiento híbrido Mamba-Transformer preciso y eficiente

Created by

Haebom

Autor

NVIDIA, :, Aarti Basant, Abhijit Khairnar, Abhijit Paithankar, Abhinav Khattar, Adithya Renduchintala, Aditya Malte, Akhiad Bercovich, Akshay Hazare, Alejandra Rico, Aleksander Ficek, Alex Kondratenko, Alex Shaposhnikov, Alexander Bukharin, Ali Taghibakhshi, Amelia Barton, Ameya Sunil Mahabaleshwarkar, Amy Shen, Andrew Tao, Ann Guan, Anna Shors, Anubhav Mandarwal, Arham Mehta, Arun Venkatesan, Ashton Sharabiani, Ashwath Aithal, Ashwin Poojary, Ayush Dattagupta, Balaram Buddharaju, Banghua Zhu, Barnaby Simkin, Bilal Kartal, Bita Darvish Rouhani, Bobby Chen, Boris Ginsburg, Brandon Norick, Brian Yu, Bryan Catanzaro, Charles Wang, Charlie Truong, Chetan Mungekar, Chintan Patel, Chris Alexiuk, Christian Munley, Christopher Parisien, Dan Su, Daniel Afrimi, Daniel Korzekwa, Daniel Rohrer, Daria Gitman, David Mosallanezhad, Deepak Narayanan, Dima Rekesh, Dina Yared, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Eileen Long, Elliott Ning, Eric Chung, Erick Galinkin, Evelina Bakhturina, Gargi Prasad, Gerald Shen, Haifeng Qian, Haim Elisha, Harsh Sharma, Hayley Ross, Helen Ngo, Herman Sahota, Hexin Wang, Hoo Chang Shin, Hua Huang, Iain Cunningham, Igor Gitman, Ivan Moshkov, Jaehun Jung, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jian Zhang, Jiaqi Zeng, Jimmy Zhang, Jinze Xue, Jocelyn Huang, Joey Conway, John Kamalu, Jonathan Cohen, Joseph Jennings, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kari Briski, Katherine Cheung, Katherine Luna, Keith Wyss, Keshav Santhanam, Kezhi Kong, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Kushan Ahmadian, Lawrence McAfee, Laya Sleiman, Leon Derczynski, Luis Vega, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Mark Cai, Markus Kliegl, Marta Stepniewska-Dziubinska, Matvei Novikov, Mehrzad Samadi, Meredith Price, Meriem Boubdir, Michael Boone, Michael Evans, Michal Bien, Michal Zawalski, Miguel Martinez, Mike Chrzanowski, Mohammad Shoeybi, Mostofa Patwary, Namit Dhameja, Nave Assaf, Negar Habibi, Nidhi Bhatia, Nikki Papa, Nima Tajbakhsh, Nirmal Kumar Juluru, Oleg Rybakov, Oleksii Hrinchuk, Oleksii Kuchaiev, Oluwatobi Olabiyi, Pablo Ribalta, Padmavathy Subramanian, Parth Chadha, Pavlo Molchanov, Peter Dykas, Peter Jin, Piotr Bialecki, Piotr Januszewski, Pradeep Thalasta, Prashant Gaikwad, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi Mahabadi, Rajen Patel, Ran El-Yaniv, Ranjit Rajan, Ria Cheruvu, Rima Shahbazyan, Ritika Borkar, Ritu Gala, Roger Waleffe, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger; Sahil Jain, Samuel Kriman, Sanjeev Satheesh, Saori Kaji, Sarah Yurick, Saurav Muralidharan, Sean Narenthiran, Seonmyeong Bak, Sepehr Sameni, Seungju Han, Shanmugam Ramasamy, Shaona Ghosh, Sharath Turuvekere Sreenivas, Shelby Thomas, Shizhe Diao, Shreya Gopal, Shrimai Prabhumoye, Shubham Toshniwal, Shuoyang Ding, Siddharth Singh, Siddhartha Jain, Somshubra Majumdar, Soumye Singhal, Stefania Alborghetti, Syeda Nahida Akter, Terry Kong, Tim Moon, Tomasz Hliwiak, Tomer Asida, Tony Wang, Tugrul Konuk, Twinkle Vashishth, Tyler Poon, Udi Karpas, Vahid Noroozi, Venkat Srinivasan, Vijay Korthikanti, Vikram Fugro, Vineeth Kalluru, Vitaly Kurin, Vitaly Lavrukhin, Wasi Uddin Ahmad, Wei Du, Wonmin Byeon, Ximing Lu, Xin Dong, Yashaswi Karnati, Yejin Choi, Yian Zhang, Ying Lin, Yonggan Fu, Yoshi Suhara, Zhen Dong, Zhiyu Li, Zhongbo Zhu, Zijia Chen

Describir

Nemotron-Nano-9B-v2 es un modelo de lenguaje híbrido Mamba-Transformer diseñado para lograr una precisión de vanguardia en comparación con modelos comparables, a la vez que aumenta el rendimiento de inferencia. Basado en la arquitectura Nemotron-H, reemplaza la mayoría de las capas de autoatención de las arquitecturas Transformer convencionales con capas Mamba-2, lo que mejora la velocidad de inferencia al generar los largos procesos de pensamiento necesarios. Tras preentrenar un modelo de 12 mil millones de parámetros (Nemotron-Nano-12B-v2-Base) con 20 billones de tokens utilizando la receta de aprendizaje FP8, el modelo se comprime y destila utilizando la estrategia Minitron, lo que permite la inferencia con hasta 128 000 tokens en una sola GPU NVIDIA A10G (memoria de 22 GiB, precisión bfloat16). En comparación con modelos convencionales de tamaño similar (p. ej., Qwen3-8B), Nemotron-Nano-9B-v2 alcanza un rendimiento de inferencia hasta 6 veces superior en configuraciones como 8k tokens de entrada y 16k tokens de salida, a la vez que alcanza una precisión comparable o superior en las pruebas de referencia de inferencia. Estamos lanzando los puntos de control de Nemotron-Nano-9B-v2, Nemotron-Nano12B-v2-Base y Nemotron-Nano-9B-v2-Base, así como la mayoría de los conjuntos de datos previos y posteriores al entrenamiento, a Hugging Face.

Takeaways, Limitations

•

Takeaways:

◦

Demostramos que la arquitectura Mamba-Transformer puede mejorar significativamente el rendimiento de la inferencia manteniendo una precisión a nivel de modelo comparable.

◦

Presentamos optimización del tamaño del modelo y estrategias de inferencia eficientes para permitir el procesamiento de hasta 128k tokens en una sola GPU.

◦

Contribuya a la investigación y el desarrollo publicando modelos y conjuntos de datos previamente entrenados.

•

Limitations:

◦

Las mejoras de rendimiento presentadas en este documento se midieron en un entorno de hardware específico (GPU NVIDIA A10G) y el rendimiento puede variar en otros entornos de hardware.

◦

Se necesita más investigación para explorar el rendimiento de generalización de la arquitectura Mamba-Transformer y su aplicabilidad a diversas tareas.

◦

Durante la reducción del tamaño del modelo puede producirse una degradación de la precisión, y se necesita más investigación para minimizarla.

Ver PDF

Made with Slashpage