# Amplify Initiative: Building A Localized Data Platform for Globalized AI

### 저자

Qazi Mamunur Rashid, Erin van Liemt, Tiffany Shih, Amber Ebinama, Karla Barrios Ramos, Madhurima Maji, Aishwarya Verma, Charu Kalia, Jamila Smith-Loud, Joyce Nakatumba-Nabende, Rehema Baguma, Andrew Katumba, Chodrine Mutebi, Jagen Marvin, Eric Peter Wairagala, Mugizi Bruce, Peter Oketta, Lawrence Nderu, Obichi Obiajunwa, Abigail Oppong, Michael Zimba, Data Authors

### 개요

현재 AI 모델들은 훈련 데이터의 대부분이 영어와 서구 인터넷 콘텐츠로 구성되어 있어 지역적 맥락과 언어를 고려하지 못하는 경우가 많습니다.  이는 전 세계 사용자가 증가함에 따라 이러한 모델의 글로벌 적합성, 유용성 및 안전성을 저해합니다. Amplify Initiative는 이러한 한계를 해결하기 위해 전문가 커뮤니티를 활용하여 다양하고 고품질의 데이터를 수집하는 데이터 플랫폼 및 방법론입니다. 이 플랫폼은 데이터셋의 공동 생성을 가능하게 하고, 고품질 다국어 데이터셋에 대한 접근을 제공하며, 데이터 작성자에게 인정을 제공하도록 설계되었습니다. 본 논문은 사하라 사막 이남 아프리카(가나, 케냐, 말라위, 나이지리아, 우간다)에서 수행된 파일럿 연구를 통해 도메인 전문가(예: 의료 종사자, 교사)와 데이터셋을 공동으로 생성하는 방법을 제시합니다. 해당 국가에 있는 현지 연구자들과의 파트너십을 통해 민감한 분야(예: 의사, 은행원, 인류학자, 인권 옹호자)의 전문가 155명과 데이터를 공동으로 생성하는 종단 간 접근 방식을 시연했습니다. 안드로이드 앱을 통해 구현된 이 접근 방식은 7개 언어(예: 루간다어, 스와힐리어, 치체와어)로 8,091개의 적대적 질의에 대한 주석이 달린 데이터셋을 생성하여 잘못된 정보 및 공익 주제와 같은 주요 주제와 관련된 미묘하고 맥락적인 정보를 포착했습니다. 이 데이터셋은 해당 언어의 맥락에서 모델의 안전성과 문화적 적합성을 평가하는 데 사용될 수 있습니다.

### 시사점, 한계점

- **시사점:**

    - 지역적 맥락과 언어를 고려한 다국어 AI 모델 개발을 위한 효과적인 데이터 수집 및 공동 생성 방법론 제시.

    - 다양한 언어와 문화적 배경을 반영한 고품질 데이터셋 구축을 통한 AI 모델의 글로벌 적합성 및 안전성 향상 가능성 제시.

    - 전문가 커뮤니티 참여를 통한 데이터셋 구축으로 데이터의 신뢰성과 질적 향상.

    - 안드로이드 앱을 활용한 접근성 향상 및 효율적인 데이터 수집.

- **한계점:**

    - 파일럿 연구의 규모가 상대적으로 작아 일반화 가능성에 대한 추가 연구 필요.

    - 참여 국가 및 언어의 제한으로 인한 일반화의 어려움.

    - 데이터 수집 과정에서 발생할 수 있는 편향성 및 윤리적 문제에 대한 심층적인 고찰 필요.

    - 장기적인 데이터 관리 및 지속적인 전문가 참여 유지 방안에 대한 추가적인 연구 필요.

[PDF 보기](https://arxiv.org/pdf/2504.14105)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).