Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HELM: Hyperbolic Large Language Models via Mixture-of-Curvature Experts

Created by
  • Haebom

저자

Neil He, Rishabh Anand, Hiren Madhu, Ali Maatouk, Smita Krishnaswamy, Leandros Tassiulas, Menglin Yang, Rex Ying

개요

본 논문은 유클리드 기반 연산에 의존하는 기존 대규모 언어 모델(LLM)의 한계를 극복하고 자연어의 계층적 의미 구조와 기하학적 특성을 더 잘 반영하기 위해, 비유클리드 기하학, 특히 쌍곡 공간을 활용한 새로운 LLM인 HELM을 제안합니다. HELM은 변환기 기반 LLM의 기하학적 재해석을 통해 표현의 유연성 부족, 필수 연산의 부재, 확장성 저하 문제를 해결하고자 합니다. 특히 곡률이 다른 여러 공간에서 작동하는 전문가 모델 HELM-MICE와 고밀도 모델 HELM-D를 제시하며, 효율적인 학습 및 추론을 위한 쌍곡 다중 머리 잠재적 주의 메커니즘(HMLA)과 쌍곡 회전 위치 인코딩 및 RMS 정규화를 개발했습니다. 10억 파라미터 규모의 완전한 쌍곡 LLM을 최초로 학습시켜 MMLU 및 ARC와 같은 벤치마크에서 기존 유클리드 기반 모델(LLaMA, DeepSeek) 대비 최대 4%의 성능 향상을 보였습니다.

시사점, 한계점

시사점:
쌍곡 기하학을 활용한 LLM이 자연어의 복잡한 기하학적 구조를 더 잘 포착하여 성능 향상을 가져올 수 있음을 보여줌.
10억 파라미터 규모의 완전한 쌍곡 LLM을 성공적으로 학습시킨 최초의 연구임.
HELM-MICE의 HMLA는 효율적인 학습 및 추론을 가능하게 함.
쌍곡 기하학 기반의 새로운 아키텍처와 방법론 제시.
STEM 문제 해결, 일반 지식, 상식 추론 등 다양한 작업에서 성능 향상 확인.
한계점:
제시된 모델의 성능 향상이 상대적으로 크지 않음 (최대 4%).
쌍곡 공간에서의 연산 복잡도 및 효율성에 대한 추가적인 연구 필요.
더욱 다양하고 광범위한 벤치마크 테스트가 필요함.
쌍곡 기하학에 대한 전문 지식이 필요하여 접근성이 다소 낮을 수 있음.
👍