소량의 데이터로 사전 훈련된 언어 모델을 미세 조정하는 것은 멸종 위기에 놓인 토착 언어와 같은 초저자원 언어의 번역기를 만드는 데 널리 사용되는 방법입니다. 그러나 이전 연구에서는 유사한 방법론과 데이터를 사용하여 생성된 번역기에서 상당히 다른 성능을 보고했습니다. 본 연구에서는 성능 차이의 가능한 원인을 체계적으로 탐구하여, 다른 정제 절차, 사전 훈련된 모델의 제한 사항, 기본 모델의 크기 또는 훈련 데이터 세트의 크기가 그 원인인지 확인하는 것을 목표로 두 방향의 번역을 연구했습니다. 두 개의 브라질 토착 언어를 사용하여 수행한 연구 결과, 이러한 훈련 요인으로 인한 영향은 거의 없거나 매우 제한적이었습니다. 이는 언어 간의 차이가 사전 훈련된 모델을 미세 조정하여 번역기를 생성하는 능력에 중요한 역할을 할 수 있음을 시사합니다.