Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LFM2 Technical Report

Created by
  • Haebom
Category
Empty

저자

Alexander Amini, Anna Banaszak, Harold Benoit, Arthur Book, Tarek Dakhran, Song Duong, Alfred Eng, Fernando Fernandes, Marc Harkonen, Anne Harrington, Ramin Hasani, Saniya Karwa, Yuri Khrustalev, Maxime Labonne, Mathias Lechner, Valentine Lechner, Simon Lee, Zetian Li, Noel Loo, Jacob Marks, Edoardo Mosca, Samuel J. Paech, Paul Pak, Rom N. Parnichkun, Alex Quach, Ryan Rogers, Daniela Rus, Nayan Saxena, Bettina Schlager, Tim Seyde, Jimmy T. H. Smith, Aditya Tadimeti, Neehal Tumma

개요

LFM2는 효율적인 온디바이스 배포와 강력한 태스크 능력을 위해 설계된 Liquid Foundation Models 제품군입니다. 엣지 지연 시간 및 메모리 제약 조건 하에서 하드웨어 인 더 루프 아키텍처 검색을 사용하여, 게이티드 숏 컨볼루션과 소수의 그룹화된 쿼리 어텐션 블록을 결합한 컴팩트 하이브리드 백본을 얻어, CPU에서 유사한 크기의 모델보다 최대 2배 빠른 프리필 및 디코딩을 제공합니다. LFM2 제품군은 350M에서 8.3B 파라미터까지, 32K 컨텍스트 길이를 가진 밀집 모델(350M, 700M, 1.2B, 2.6B)과 전문가 혼합 변형(8.3B 총, 1.5B 활성)을 포함합니다. 훈련 파이프라인에는 지원 불일치를 방지하는 템퍼드, 디커플된 Top-K 지식 증류 목표, 난이도별 데이터로의 커리큘럼 학습, 감독 미세 조정, 길이 정규화된 선호도 최적화, 모델 병합의 3단계 후처리 레시피가 포함됩니다. 10-12T 토큰으로 사전 훈련된 LFM2 모델은 다양한 벤치마크에서 강력한 결과를 달성합니다. 예를 들어, LFM2-2.6B는 IFEval에서 79.56%, GSM8K에서 82.41%를 기록합니다. 또한 시각-언어 태스크를 위한 LFM2-VL, 음성 처리를 위한 LFM2-Audio, 검색을 위한 LFM2-ColBERT를 구축했습니다. LFM2-VL은 토큰 효율적인 시각적 처리를 통해 정확도-지연 시간 트레이드 오프를 지원하며, LFM2-Audio는 오디오 입력 및 출력 경로를 분리하여 3배 더 큰 모델과 경쟁하는 실시간 음성 대 음성 상호 작용을 가능하게 합니다. LFM2-ColBERT는 쿼리 및 문서에 대한 저지연 인코더를 제공하여 여러 언어에서 고성능 검색을 가능하게 합니다. 모든 모델은 ExecuTorch, llama.cpp, vLLM을 위한 오픈 가중치 및 배포 패키지와 함께 출시되어 빠르고 메모리 효율적인 추론과 강력한 태스크 기능을 필요로 하는 엣지 애플리케이션을 위한 실용적인 기반을 제공합니다.

시사점, 한계점

온디바이스 배포를 위한 효율적인 모델 설계: 엣지 환경에서 빠른 추론을 위해 특화된 아키텍처 (게이티드 숏 컨볼루션, 소수의 그룹화된 쿼리 어텐션 블록) 채택.
다양한 모델 크기 및 변형: 밀집 모델, 전문가 혼합 모델, 멀티모달 모델, 검색 모델 등 다양한 모델을 제공하여 다양한 사용 사례 지원.
강력한 성능: 다양한 벤치마크에서 우수한 성능 달성.
오픈 소스 릴리스: 모델 가중치 및 배포 패키지 (ExecuTorch, llama.cpp, vLLM)를 공개하여 접근성 및 활용도 높임.
한계점은 논문에 명시되어 있지 않음.
👍