Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

NVIDIA Nemotron Nano V2 VL

Created by
  • Haebom
Category
Empty

저자

NVIDIA, :, Amala Sanjay Deshmukh, Kateryna Chumachenko, Tuomas Rintamaki, Matthieu Le, Tyler Poon, Danial Mohseni Taheri, Ilia Karmanov, Guilin Liu, Jarno Seppanen, Guo Chen, Karan Sapra, Zhiding Yu, Adi Renduchintala, Charles Wang, Peter Jin, Arushi Goel, Mike Ranzinger, Lukas Voegtle, Philipp Fischer, Timo Roman, Wei Ping, Boxin Wang, Zhuolin Yang, Nayeon Lee, Shaokun Zhang, Fuxiao Liu, Zhiqi Li, Di Zhang, Greg Heinrich, Hongxu Yin, Song Han, Pavlo Molchanov, Parth Mannan, Yao Xu, Jane Polak Scowcroft, Tom Balough, Subhashree Radhakrishnan, Paris Zhang, Sean Cha, Ratnesh Kumar, Zaid Pervaiz Bhat, Jian Zhang, Darragh Hanley, Pritam Biswas, Jesse Oliver, Kevin Vasques, Roger Waleffe, Duncan Riach, Oluwatobi Olabiyi, Ameya Sunil Mahabaleshwarkar, Bilal Kartal, Pritam Gundecha, Khanh Nguyen, Alexandre Milesi, Eugene Khvedchenia, Ran Zilberstein, Ofri Masad, Natan Bagrov, Nave Assaf, Tomer Asida, Daniel Afrimi, Amit Zuker, Netanel Haber, Zhiyu Cheng, Jingyu Xin, Di Wu, Nik Spirin, Maryam Moosaei, Roman Ageev, Vanshil Atul Shah, Yuting Wu, Daniel Korzekwa, Unnikrishnan Kizhakkemadam Sreekumar, Wanli Jiang, Padmavathy Subramanian, Alejandra Rico, Sandip Bhaskar, Saeid Motiian, Kedi Wu, Annie Surla, Chia-Chih Chen, Hayden Wolff, Matthew Feinberg, Melissa Corpuz, Marek Wawrzos, Eileen Long, Aastha Jhunjhunwala, Paul Hendricks, Farzan Memarian, Benika Hall, Xin-Yu Wang, David Mosallanezhad, Soumye Singhal, Luis Vega, Katherine Cheung, Krzysztof Pawelec, Michael Evans, Katherine Luna, Jie Lou, Erick Galinkin, Akshay Hazare, Kaustubh Purandare, Ann Guan, Anna Warno, Chen Cui, Yoshi Suhara, Shibani Likhite, Seph Mard, Meredith Price, Laya Sleiman, Saori Kaji, Udi Karpas, Kari Briski, Joey Conway, Michael Lightstone, Jan Kautz, Mohammad Shoeybi, Mostofa Patwary, Jonathen Cohen, Oleksii Kuchaiev, Andrew Tao, Bryan Catanzaro

개요

Nemotron Nano V2 VL은 강력한 실제 문서 이해, 긴 비디오 이해 및 추론 작업을 위해 설계된 Nemotron vision-language 시리즈의 최신 모델입니다. 이전 모델인 Llama-3.1-Nemotron-Nano-VL-8B에 비해 모델 아키텍처, 데이터 세트 및 학습 레시피를 대폭 개선하여 모든 비전 및 텍스트 도메인에서 상당한 성능 향상을 제공합니다. Nemotron Nano V2, 하이브리드 Mamba-Transformer LLM을 기반으로 하며, 혁신적인 토큰 감소 기술을 통해 긴 문서 및 비디오 시나리오에서 더 높은 추론 처리량을 달성합니다. BF16, FP8 및 FP4 형식의 모델 체크포인트를 공개하고 데이터 세트, 레시피 및 학습 코드의 상당 부분을 공유합니다.

시사점, 한계점

Nemotron Nano V2 VL은 이전 모델 대비 시각 및 텍스트 도메인 전반에서 성능 향상을 보였습니다.
긴 문서 및 비디오 시나리오에서 더 높은 추론 처리량을 달성했습니다.
BF16, FP8, FP4 형식의 모델 체크포인트를 제공하여 다양한 환경에서 활용 가능성을 높였습니다.
데이터 세트, 레시피 및 학습 코드를 공유하여 연구의 재현 및 확장을 용이하게 합니다.
구체적인 한계점에 대한 정보는 논문 요약에 포함되어 있지 않습니다.
👍