Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Apertus: Democratizing Open and Compliant LLMs for Global Language Environments

Created by
  • Haebom

저자

Alejandro Hernandez-Cano, Alexander Hagele, Allen Hao Huang, Angelika Romanou, Antoni-Joan Solergibert, Barna Pasztor, Bettina Messmer, Dhia Garbaya, Eduard Frank \v{D}urech, Ido Hakimi, Juan Garcia Giraldo, Mete Ismayilzada, Negar Foroutan, Skander Moalla, Tiancheng Chen, Vinko Sabol\v{c}ec, Yixuan Xu, Michael Aerni, Badr AlKhamissi, Ines Altemir Marinas, Mohammad Hossein Amani, Matin Ansaripour, Ilia Badanin, Harold Benoit, Emanuela Boros, Nicholas Browning, Fabian Bosch, Maximilian Bother, Niklas Canova, Camille Challier, Clement Charmillot, Jonathan Coles, Jan Deriu, Arnout Devos, Lukas Drescher, Daniil Dzenhaliou, Maud Ehrmann, Dongyang Fan, Simin Fan, Silin Gao, Miguel Gila, Maria Grandury, Diba Hashemi, Alexander Hoyle, Jiaming Jiang, Mark Klein, Andrei Kucharavy, Anastasiia Kucherenko, Frederike Lubeck, Roman Machacek, Theofilos Manitaras, Andreas Marfurt, Kyle Matoba, Simon Matrenok, Henrique Mendonc\c{c}a, Fawzi Roberto Mohamed, Syrielle Montariol, Luca Mouchel, Sven Najem-Meyer, Jingwei Ni, Gennaro Oliva, Matteo Pagliardini, Elia Palme, Andrei Panferov, Leo Paoletti, Marco Passerini, Ivan Pavlov, Auguste Poiroux, Kaustubh Ponkshe, Nathan Ranchin, Javi Rando, Mathieu Sauser, Jakhongir Saydaliev, Muhammad Ali Sayfiddinov, Marian Schneider, Stefano Schuppli, Marco Scialanga, Andrei Semenov, Kumar Shridhar, Raghav Singhal, Anna Sotnikova, Alexander Sternfeld, Ayush Kumar Tarun, Paul Teiletche, Jannis Vamvas, Xiaozhe Yao, Hao Zhao Alexander Ilic, Ana Klimovic, Andreas Krause, Caglar Gulcehre, David Rosenthal, Elliott Ash, Florian Tramer, Joost VandeVondele, Livio Veraldi, Martin Rajman, Thomas Schulthess, Torsten Hoefler, Antoine Bosselut, Martin Jaggi, Imanol Schlag

개요

Apertus는 데이터 준수 및 다국어 표현이라는 두 가지 시스템적 단점을 해결하기 위해 설계된 완전히 공개된 대규모 언어 모델(LLM) 모음입니다. 기존의 많은 모델들이 재현 가능한 데이터 파이프라인 없이 또는 콘텐츠 소유자 권리를 고려하지 않고 가중치만 공개하는 것과 달리, Apertus 모델은 robots.txt 제외를 소급 적용하고 비허용적, 유해하며 개인 식별 가능한 콘텐츠를 필터링하여 전적으로 공개적으로 이용 가능한 데이터로 사전 훈련됩니다. 메모리화 위험을 완화하기 위해 사전 훈련 중 Goldfish 목표를 채택하여 데이터의 직접적인 재현을 강력하게 억제하면서 하류 작업 성능을 유지합니다. Apertus 모델은 또한 1800개 이상의 언어에서 15T 토큰으로 훈련하여 다국어 지원을 확장하며, 사전 훈련 데이터의 약 40%를 영어가 아닌 콘텐츠에 할당합니다. 8B 및 70B 규모로 공개된 Apertus는 다국어 벤치마크에서 완전히 공개된 모델 중 최첨단 결과에 근접하며, 공개 가중치 모델과 동등하거나 능가합니다. 모델 가중치 외에도 데이터 준비 스크립트, 검사점, 평가 모음 및 훈련 코드를 포함하여 개발 주기의 모든 과학적 산출물을 허가적 라이선스로 공개하여 투명한 감사 및 확장을 가능하게 합니다.

시사점, 한계점

시사점:
데이터 준수 및 다국어 지원을 고려한 완전히 공개된 LLM을 제공합니다.
robots.txt 제외 및 유해 콘텐츠 필터링을 통해 윤리적 문제를 완화하려는 시도를 보여줍니다.
Goldfish 목표를 통해 메모리화 위험을 줄이고 성능을 유지합니다.
다국어 벤치마크에서 최첨단 성능을 달성합니다.
모든 과학적 산출물을 공개하여 투명성과 재현성을 높입니다.
한계점:
Goldfish 목표의 효과에 대한 추가적인 분석이 필요할 수 있습니다.
사용된 데이터의 품질 및 편향에 대한 자세한 설명이 부족할 수 있습니다.
특정 다국어 벤치마크에 대한 성능만 제시되어 다른 벤치마크에서의 성능은 알 수 없습니다.
모델의 크기가 8B와 70B로 제한되어 더 큰 모델의 성능은 알 수 없습니다.
👍