Prompting with Phonemes: Enhancing LLMs' Multilinguality for Non-Latin Script Languages
Created by
Haebom
Category
Empty
저자
Hoang H Nguyen, Khyati Mahajan, Vikas Yadav, Julian Salazar, Philip S. Yu, Masoud Hashemi, Rishabh Maheshwary
개요
다국어 대규모 언어 모델(LLM)은 벤치마크에서 놀라운 성능을 달성했지만, 여전히 비라틴 문자 언어에서는 성능이 저조합니다. 이는 LLM이 라틴 문자 중심의 정자법 스크립트로 사전 훈련되기 때문에 비라틴 문자 스크립트와 공유하는 음운론이 가려지기 때문입니다. 본 연구는 음소 표기법을 보완적인 신호로 활용하여 스크립트 불변 표현을 유도하는 방법을 제안합니다. 음소 신호 통합을 통해 라틴 문자와 비라틴 문자 언어 모두에서 성능이 향상되며, 특히 두 언어 간 성능 격차를 줄이는 데 큰 영향을 미칩니다. 자세한 실험을 통해 음소 및 정자법 스크립트가 상황 내 학습(ICL)을 위해 서로 다른 예시를 검색함을 보여줍니다. 이는 음소 및 정자법 스크립트 모두에서 검색된 정보를 추가적으로 집계하는 혼합 ICL 검색 전략을 제안하게 합니다. 이 전략을 통해 라틴 문자 언어(최대 12.6%)와 비라틴 문자 언어(최대 15.1%) 모두에서 무작위 ICL 검색에 비해 성능이 크게 향상됩니다.
시사점, 한계점
•
시사점: 음소 표기법을 활용하여 다국어 LLM의 비라틴 문자 언어 성능을 향상시킬 수 있음을 보여줌. 혼합 ICL 검색 전략을 통해 라틴 및 비라틴 문자 언어 모두에서 성능 개선 가능성을 제시함. 라틴 문자 중심의 데이터 편향 문제 해결에 대한 새로운 접근 방식 제시.
•
한계점: 제안된 방법의 일반화 성능에 대한 추가 연구 필요. 다양한 비라틴 문자 언어와 LLM 아키텍처에 대한 더 폭넓은 실험 필요. 음소 표기법 생성 및 통합의 계산 비용 고려 필요.