Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Prompting with Phonemes: Enhancing LLMs' Multilinguality for Non-Latin Script Languages

Created by
  • Haebom

저자

Hoang H Nguyen, Khyati Mahajan, Vikas Yadav, Julian Salazar, Philip S. Yu, Masoud Hashemi, Rishabh Maheshwary

개요

다국어 대규모 언어 모델(LLM)은 여러 벤치마크에서 놀라운 성능을 달성했지만, 여전히 라틴 문자 이외의 문자를 사용하는 언어에서는 성능이 저조합니다. 이는 LLM이 주로 라틴 문자로 구성된 정자(orthographic scripts)로 사전 훈련되기 때문에, 라틴 문자 이외의 문자와 공유하는 음운론적 특징이 가려지기 때문입니다. 본 연구는 음운 전사(phonemic transcriptions)를 보완적인 신호로 활용하여 문자 체계에 관계없는 표현을 유도하는 방법을 제안합니다. 실험 결과, 음운 신호를 통합하면 라틴 문자와 라틴 문자 이외의 문자를 사용하는 언어 모두에서 성능이 향상되며, 특히 두 문자 체계 간의 성능 격차를 줄이는 데 상당한 영향을 미칩니다. 자세한 실험을 통해 음운 및 정자 스크립트가 상황 내 학습(ICL)을 위해 서로 다른 예시를 검색한다는 것을 보여줍니다. 이는 음운 및 정자 스크립트 모두에서 검색된 결과를 추가적으로 집계하는 혼합 ICL 검색 전략을 제안하게 하였으며, 이 전략은 라틴 문자 언어(최대 12.6%)와 라틴 문자 이외의 문어(최대 15.1%) 모두에서 무작위 ICL 검색에 비해 성능을 크게 향상시킵니다.

시사점, 한계점

시사점: 음운 정보를 통합하여 다국어 LLM의 성능을 향상시킬 수 있음을 보여줌. 특히 라틴 문자 이외의 문자를 사용하는 언어의 성능 개선에 효과적임. 혼합 ICL 검색 전략을 통해 라틴 문자 및 비라틴 문자 언어 모두에서 성능 향상을 달성 가능함을 제시.
한계점: 본 연구에서 제시된 방법의 일반화 가능성에 대한 추가적인 연구가 필요함. 다양한 언어 및 LLM 아키텍처에 대한 추가적인 실험이 필요함. 음운 전사의 정확성 및 일관성이 성능에 미치는 영향에 대한 추가적인 분석이 필요함.
👍