Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Code-Switching Curriculum Learning for Multilingual Transfer in LLMs

Created by
  • Haebom

저자

Haneul Yoo, Cheonbok Park, Sangdoo Yun, Alice Oh, Hwaran Lee

개요

본 논문은 대규모 언어 모델(LLM)의 다국어 성능 향상을 위해 코드 전환 커리큘럼 학습(CSCL)이라는 새로운 방법을 제안합니다. 인간의 제2 언어 습득 과정, 특히 코드 전환(대화 중 언어 전환)에서 영감을 얻어, 토큰 수준, 문장 수준의 코드 전환과 단일 언어 말뭉치를 단계적으로 학습하는 커리큘럼을 구성했습니다. Qwen 2, Gemma 2, Phi 3.5 모델을 사용하여 한국어, 일본어, 인도네시아어에 대한 실험을 진행한 결과, 기존의 단일 언어 지속적 사전 학습 방법에 비해 성능이 크게 향상됨을 보였습니다. 특히, 저자원 언어에 대한 성능 향상이 두드러졌으며, 코드 전환과 커리큘럼 학습이 상호 시너지 효과를 내는 것을 확인했습니다. 또한, CSCL이 언어 자원과 안전 정렬 간의 허위 상관 관계를 완화하여 보다 공정한 언어 전이 프레임워크를 제공함을 보여줍니다.

시사점, 한계점

시사점:
코드 전환 커리큘럼 학습(CSCL)은 LLM의 다국어 성능, 특히 저자원 언어에 대한 성능을 향상시키는 효과적인 방법임을 제시합니다.
토큰 및 문장 수준의 코드 전환 모두 교차 언어 전이에 유의미한 향상을 가져오며, 커리큘럼 학습은 이러한 효과를 증폭시킵니다.
CSCL은 저자원 언어 설정에서 고품질 단일 언어 말뭉치가 부족한 상황에서도 효과적입니다.
LLM의 안전성과 공정성을 향상시키는 데 기여할 수 있습니다.
한계점:
본 연구에서 사용된 모델과 언어의 종류 및 수가 제한적일 수 있습니다. 더 다양한 모델과 언어에 대한 추가 연구가 필요합니다.
CSCL의 효과가 모든 언어 쌍에 대해 동일하게 나타나는지에 대한 추가적인 검증이 필요합니다.
커리큘럼 설계의 최적화에 대한 추가 연구가 필요합니다. (예: 각 단계의 최적 비율, 단계별 데이터 크기 등)
👍