Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia

Created by
  • Haebom
Category
Empty

저자

Samuel Cahyawijaya, Holy Lovenia, Joel Ruben Antony Moniz, Tack Hwa Wong, Mohammad Rifqi Farhansyah, Thant Thiri Maung, Frederikus Hudi, David Anugraha, Muhammad Ravi Shulthan Habibi, Muhammad Reza Qorib, Amit Agarwal, Joseph Marvin Imperial, Hitesh Laxmichand Patel, Vicky Feliren, Bahrul Ilmi Nasution, Manuel Antonio Rufino, Genta Indra Winata, Rian Adam Rajagede, Carlos Rafael Catalan, Mohamed Fazli Imam, Priyaranjan Pattnayak, Salsabila Zahirah Pranida, Kevin Pratama, Yeshil Bangera, Adisai Na-Thalang, Patricia Nicole Monderin, Yueqi Song, Christian Simon, Lynnette Hui Xian Ng, Richardy Lobo' Sapan, Taki Hasan Rafi, Bin Wang, Supryadi, Kanyakorn Veerakanjana, Piyalitt Ittichaiwong, Matthew Theodore Roque, Karissa Vincentio, Takdanai Kreangphet, Phakphum Artkaew, Kadek Hendrawan Palgunadi, Yanzhi Yu, Rochana Prih Hastuti, William Nixon, Mithil Bangera, Adrian Xuan Wei Lim, Aye Hninn Khine, Hanif Muhammad Zhafran, Teddy Ferdinan, Audra Aurora Izzani, Ayushman Singh, Evan, Jauza Akbar Krito, Michael Anugraha, Fenal Ashokbhai Ilasariya, Haochen Li, John Amadeo Daniswara, Filbert Aurelian Tjiaranata, Eryawan Presma Yulianrifat, Can Udomcharoenchaikit, Fadil Risdian Ansori, Mahardika Krisna Ihsani, Giang Nguyen, Anab Maulana Barik, Dan John Velasco, Rifo Ahmad Genadi, Saptarshi Saha, Chengwei Wei, Isaiah Flores, Kenneth Ko Han Chen, Anjela Gail Santos, Wan Shen Lim, Kaung Si Phyo, Tim Santos, Meisyarah Dwiastuti, Jiayun Luo, Jan Christian Blaise Cruz, Ming Shan Hee, Ikhlasul Akmal Hanif, M. Alif Al Hakim, Muhammad Rizky Sya'ban, Kun Kerdthaisong, Lester James V. Miranda, Fajri Koto, Tirana Noor Fatyanosa, Alham Fikri Aji, Jostin Jerico Rosal, Jun Kevin, Robert Wijaya, Onno P. Kampman, Ruochen Zhang, Borje F. Karlsson, Peerat Limkonchotiwat

개요

본 논문은 동남아시아(SEA) 지역의 언어 및 문화적 다양성을 고려하여, 기존의 비전-언어(VL) 연구에서 동남아시아가 크게 소외되어 AI 모델이 동남아시아 문화적 특징을 제대로 반영하지 못하는 문제를 해결하기 위한 노력으로 SEA-VL 이니셔티브를 제시한다. SEA-VL은 동남아시아 언어를 위한 고품질의 문화적으로 적절한 데이터를 개발하는 오픈소스 프로젝트로, 동남아시아 국가의 참여자들을 포함하여 문화적 적절성과 다양성을 보장하고 VL 연구에서 소외된 언어의 포용성을 높이는 것을 목표로 한다. 크라우드소싱 외에도 웹 크롤링 및 이미지 생성을 통한 문화적으로 관련된 이미지의 자동 수집을 탐색하여, 크롤링을 통해 약 85%의 문화적 적절성을 달성하며 크라우드소싱보다 비용 및 시간 효율성이 높다는 것을 확인하였다. 생성형 비전 모델의 발전에도 불구하고, 합성 이미지는 동남아시아 문화를 정확하게 반영하는 데 신뢰할 수 없다는 것을 밝혔다. 최종적으로 128만 개 이상의 동남아시아 문화 관련 이미지를 수집하여 기존 데이터셋보다 50배 이상 큰 규모의 데이터셋을 구축하였다. SEA-VL을 통해 동남아시아의 표현 격차를 해소하고 다양한 문화를 진정으로 반영하는 포괄적인 AI 시스템 개발을 촉진하고자 한다.

시사점, 한계점

시사점:
동남아시아 언어 및 문화를 고려한 대규모 VL 데이터셋 SEA-VL을 구축하여 AI 모델의 문화적 편향 문제 해결에 기여.
웹 크롤링을 통한 데이터 수집의 효율성을 입증.
기존 크라우드소싱 방식 대비 비용 및 시간 효율적인 데이터 구축 방법 제시.
동남아시아 문화의 다양성을 반영하는 보다 포괄적인 AI 시스템 개발 가능성 제시.
한계점:
생성형 비전 모델을 이용한 이미지 생성의 정확도 및 문화적 적절성 부족.
웹 크롤링을 통해 수집된 이미지의 문화적 적절성이 100%가 아니며 (약 85%), 추가적인 검증 및 보완이 필요할 수 있음.
SEA-VL 데이터셋의 장기적인 관리 및 유지보수 계획 필요.
동남아시아 지역의 다양한 문화적 맥락을 완벽히 반영하는데 한계가 존재할 수 있음.
👍