나이지리아는 아프리카에서 가장 인구가 많은 나라이며, 500개 이상의 언어가 사용되는 언어적으로 매우 다양한 국가입니다. 그럼에도 불구하고, 자연어 처리(NLP) 연구는 Hausa, Igbo, Nigerian-Pidgin, Yoruba 등 소수의 언어에 집중되어 왔습니다. 본 연구에서는 Akwa Ibom 주에서 사용되는 Anaang, Efik, Ibibio, Oro 등 4개의 해안 나이지리아 언어에 대한 기계 번역 및 주제 분류를 위한 데이터세트 ibom을 소개합니다. 이 언어들은 Google 번역이나 Flores-200 또는 SIB-200과 같은 주요 벤치마크에 포함되어 있지 않습니다. 우리는 Flores-200 벤치마크를 이 언어들로 확장하고, 번역된 텍스트를 SIB-200 분류 데이터세트를 기반으로 하는 주제 레이블과 정렬하는 데 중점을 둡니다. 평가는 현재 LLM이 이러한 언어에 대해 제로샷 및 퓨샷 설정 모두에서 기계 번역에 대한 성능이 낮음을 보여주지만, 퓨샷 샘플은 더 많은 샷으로 주제 분류를 꾸준히 향상시키는 것을 확인했습니다.