Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AssurAI: Experience with Constructing Korean Socio-cultural Datasets to Discover Potential Risks of Generative AI

Created by
  • Haebom
Category
Empty

저자

Chae-Gyun Lim, Seung-Ho Han, EunYoung Byun, Jeongyun Han, Soohyun Cho, Eojin Joo, Heehyeon Kim, Sieun Kim, Juhoon Lee, Hyunsoo Lee, Dongkun Lee, Jonghwan Hyeon, Yechan Hwang, Young-Jun Lee, Kyeongryul Lee, Minhyeong An, Hyunjun Ahn, Jeongwoo Son, Junho Park, Donggyu Yoon, Taehyung Kim, Jeemin Kim, Dasom Choi, Kwangyoung Lee, Hyunseung Lim, Yeohyun Jung, Jongok Hong, Sooyohn Nam, Joonyoung Park, Sungmin Na, Yubin Choi, Jeanne Choi, Yoojin Hong, Sueun Jang, Youngseok Seo, Somin Park, Seoungung Jo, Wonhye Chae, Yeeun Jo, Eunyoung Kim, Joyce Jiyoung Whang, HwaJung Hong, Joseph Seering, Uichin Lee, Juho Kim, Sunna Choi, Seokyeon Ko, Taeho Kim, Kyunghoon Kim, Myungsik Ha, So Jung Lee, Jemin Hwang, JoonHo Kwak, Ho-Jin Choi

개요

생성형 AI의 안전성 평가를 위한 새로운 한국어 멀티모달 데이터셋 AssurAI를 소개합니다. 이 데이터셋은 한국어 특수성을 고려하여 35개의 AI 위험 요소 분류 체계를 정의하고, 이를 기반으로 텍스트, 이미지, 비디오, 오디오를 포함하는 11,480개의 인스턴스로 구성되었습니다. AssurAI는 전문가 주도 시딩 및 크라우드소싱 확장을 통한 이중 구성, 3중 독립 주석, 반복적인 전문가 레드팀 루프를 포함한 엄격한 품질 관리 프로세스를 거쳤습니다. 파일럿 연구를 통해 최신 LLM의 안전성 평가에 효과적임을 입증하였으며, 안전하고 신뢰할 수 있는 생성형 AI 시스템 개발을 위해 공개됩니다.

시사점, 한계점

한국어 및 한국 사회문화적 맥락을 고려한 안전성 평가 데이터셋 구축
텍스트, 이미지, 비디오, 오디오를 포함하는 멀티모달 데이터셋 제공
엄격한 품질 관리 프로세스를 통해 데이터 무결성 확보
최신 LLM의 안전성 평가에 효과적임 입증
한국 커뮤니티를 위한 안전한 생성형 AI 시스템 개발에 기여
데이터셋 구축 및 평가에 대한 구체적인 방법론 제시 부족
다양한 생성형 AI 모델에 대한 평가 결과 미흡
다른 언어 및 문화권으로의 일반화 가능성 추가 연구 필요
👍