Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Open-sci-ref-0.01: open and reproducible reference baselines for language model and dataset comparison

Created by
  • Haebom

저자

Marianna Nezhurina, Jorg Franke, Taishi Nakamura, Timur Carstensen, Niccolo Ajroldi, Ville Komulainen, David Salinas, Jenia Jitsev

개요

본 논문은 다양한 크기(0.13B~1.7B 파라미터)와 토큰 규모(최대 1조)의 8개 최신 오픈 레퍼런스 데이터셋을 사용하여 학습된, 밀집 트랜스포머 모델 군인 open-sci-ref를 소개합니다. 여러 표준화된 벤치마크를 통해 모델을 평가하여, 연구자들이 다양한 규모와 데이터셋에 걸쳐 대안적인 학습 방법의 타당성과 품질을 평가할 수 있도록 기준점을 설정합니다. 중간 체크포인트를 통해 학습 역학을 비교하고 연구할 수 있으며, 설정된 기준 기준선을 통해 학습 절차를 공통된 연산 축에 정렬하여 스케일링 동향을 비교할 수 있습니다. 오픈 레퍼런스 데이터셋 비교 결과, NemoTron-CC HQ를 사용하여 학습한 것이 다른 레퍼런스 데이터셋보다 성능이 뛰어나며, 그 뒤를 DCLM-baseline과 FineWeb-Edu가 따릅니다. 중간 학습 체크포인트 외에도 로그, 코드 및 다운스트림 평가를 포함하여 재현성을 단순화하고, 비교를 표준화하며, 향후 연구를 촉진합니다.

시사점, 한계점

시사점:
다양한 규모와 데이터셋에 걸쳐 밀집 트랜스포머 모델 학습에 대한 기준점을 제공합니다.
다른 학습 방법의 타당성과 품질을 평가할 수 있는 기준을 제시합니다.
데이터셋의 성능 차이를 분석하여 최적의 데이터셋을 선택하는 데 도움을 줍니다.
중간 체크포인트, 로그, 코드, 다운스트림 평가를 공개하여 연구 재현성 및 비교 표준화를 용이하게 합니다.
한계점:
사용된 데이터셋이 특정 영역에 치우쳐 있을 가능성이 있습니다.
제시된 기준점은 특정 모델 아키텍처와 학습 설정에 국한될 수 있습니다.
더욱 다양한 벤치마크 평가가 필요할 수 있습니다.
👍