Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Lucie-7B LLM and the Lucie Training Dataset: Open resources for multilingual language generation

Created by
  • Haebom
Category
Empty

저자

Olivier Gouvert, Julie Hunter, Jerome Louradour, Christophe Cerisara, Evan Dufraisse, Yaya Sy, Laura Riviere, Jean-Pierre Lorre, OpenLLM-France community

개요

본 논문은 프랑스어 중심의 다국어 말뭉치인 Lucie Training Dataset과 이를 기반으로 학습된 기초 모델 Lucie-7B를 소개합니다. Lucie Training Dataset은 기존의 영어 중심적인 대규모 언어 모델 사전 학습 데이터셋의 편향을 해소하기 위해 제작되었으며, 프랑스어 데이터는 웹뿐 아니라 프랑스 문화유산 문서도 포함하여 현대 데이터셋의 중요한 공백을 채웁니다. 프랑스어 외에도 영어, 스페인어, 독일어, 이탈리아어 등 여러 유럽 언어의 문서를 포함하고 있으며, 저작권 자료를 최소화하여 데이터 권리를 우선시합니다. Lucie-7B는 프랑스어와 영어 데이터를 각각 약 33%씩 사용하여 프랑스어권 문화적 측면을 더 잘 반영하고자 하였습니다. 또한, Lucie-7B를 활용한 두 개의 지시어 미세 조정 모델(Lucie-7B-Instruct-v1.1 및 Lucie-7B-Instruct-human-data)을 선보이며, 최첨단 모델에 비해 유망한 결과를 보여줍니다. 모델 가중치와 코드는 Hugging Face와 GitHub에 공개되어 있으며, 새로운 OSI 정의에 따라 첫 번째 OSI 준수 언어 모델 중 하나입니다.

시사점, 한계점

시사점:
프랑스어 중심의 다국어 데이터셋과 모델을 제공하여 기존의 영어 중심 편향을 완화하는 데 기여.
저작권 문제를 최소화하여 데이터 권리를 우선시하는 오픈소스 접근 방식 제시.
오픈소스 접근 방식에도 불구하고 최첨단 모델과 비교하여 경쟁력 있는 성능을 달성.
프랑스어권 문화에 대한 더 나은 이해와 표현 가능성 제시.
새로운 OSI 준수 언어 모델의 선구자 역할.
한계점:
데이터셋 및 모델의 규모가 아직 상대적으로 작을 수 있음. (7B 모델)
다른 언어 데이터의 양이 프랑스어에 비해 상대적으로 적을 수 있음.
장기적인 모델 유지보수 및 지속적인 개선에 대한 계획이 구체적으로 제시되지 않음.
다양한 문화적 맥락과 편향에 대한 심층적인 분석 부족.
👍