Sign In

Cross-Lingual Stability and Bias in Instruction-Tuned Language Models for Humanitarian NLP

Created by
  • Haebom
Category
Empty

저자

Poli Nemkova, Amrit Adhikari, Matthew Pearson, Vamsi Krishna Sadu, Mark V. Albert

개요

본 논문은 인도적 지원 단체가 다국어 인권 침해 감지를 위해 고비용 상용 API에 투자할지, 아니면 무료 오픈 가중치 모델을 사용할지 결정해야 하는 상황에서, 상용 모델과 오픈 가중치 모델의 성능을 비교 분석한다. 특히 분쟁 지역에서 흔히 사용되는 저자원 언어에 대한 실증적 검증이 부족한 오픈 가중치 모델의 한계를 지적하며, 7개 언어에 걸쳐 인권 침해 감지를 수행하는 6개의 모델(4개의 지시 정렬 모델, 2개의 오픈 가중치 모델)을 평가하여 비용-신뢰도 간의 trade-off를 정량화한다.

시사점, 한계점

지시 정렬이 모델의 규모보다 안정성에 더 큰 영향을 미친다. 정렬된 모델은 다양한 유형의 언어와 저자원 언어에서도 높은 정확도와 균형 잡힌 보정을 유지한다.
오픈 가중치 모델은 프롬프트 언어에 민감하고 보정 편차가 심하게 나타난다.
다국어 정렬은 언어에 구애받지 않는 추론을 가능하게 한다.
인도적 지원 단체가 예산 제약과 다국어 배포에서의 신뢰도 사이의 균형을 맞추는 데 실질적인 지침을 제공한다.
평가 모델 수가 제한적이며, 더 많은 모델에 대한 추가 연구가 필요하다.
👍