Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EXAONE Deep: Reasoning Enhanced Language Models

Created by
  • Haebom
Category
Empty

저자

LG AI Research, Kyunghoon Bae, Eunbi Choi, Kibong Choi, Stanley Jungkyu Choi, Yemuk Choi, Seokhee Hong, Junwon Hwang, Hyojin Jeon, Kijeong Jeon, Gerrard Jeongwon Jo, Hyunjik Jo, Jiyeon Jung, Hyosang Kim, Joonkee Kim, Seonghwan Kim, Soyeon Kim, Sunkyoung Kim, Yireun Kim, Yongil Kim, Youchul Kim, Edward Hwayoung Lee, Haeju Lee, Honglak Lee, Jinsik Lee, Kyungmin Lee, Sangha Park, Yongmin Park, Sihoon Yang, Heuiyeen Yeen, Sihyuk Yi, Hyeongu Yun

개요

EXAONE Deep 시리즈는 수학 및 코딩 벤치마크를 포함한 다양한 추론 작업에서 우수한 성능을 보이는 대규모 언어 모델입니다. 긴 사고 과정을 통합한 추론 전문 데이터셋을 주로 사용하여 학습되었으며, 2.4B 및 7.8B 파라미터 모델은 유사한 크기의 다른 모델들을 능가하는 성능을 보였고, 32B 파라미터 모델은 최고 성능의 대규모 모델들과 경쟁력 있는 성능을 보여줍니다. 모든 EXAONE Deep 모델은 연구 목적으로 공개적으로 이용 가능하며 Hugging Face에서 다운로드할 수 있습니다.

시사점, 한계점

시사점:
추론 전문 데이터셋을 사용한 학습의 효과를 보여줌.
비교적 작은 크기의 모델에서도 우수한 성능을 달성.
모델의 공개를 통한 연구 활성화 가능성 제시.
한계점:
32B 모델의 성능이 최고 성능 모델과 "경쟁력 있는" 수준이라는 점에서, 최고 성능 모델 대비 성능 차이에 대한 구체적인 분석 부족.
논문에서 제시된 추론 전문 데이터셋에 대한 자세한 설명 부재.
다양한 추론 작업에서의 성능 비교에 대한 세부적인 정보 부족.
👍