Sign In

LLM-C3MOD: A Human-LLM Collaborative System for Cross-Cultural Hate Speech Moderation

Created by
  • Haebom
Category
Empty

저자

Junyeong Park, Seogyeong Jeong, Seyoung Song, Yohan Lee, Alice Oh

개요

본 논문은 저자원 언어의 혐오 표현 조정에서 비원어 사용자 모더레이터의 어려움을 다룹니다. 문화적 맥락 이해 부족으로 인한 부적절한 조정의 위험성을 지적하며, 이를 해결하기 위해 LLM-C3MOD라는 인간-LLM 협업 파이프라인을 제시합니다. LLM-C3MOD는 RAG 기반 문화적 맥락 주석, LLM 기반 초기 조정, 그리고 LLM 합의가 없는 경우를 위한 표적 인간 조정의 세 단계로 구성됩니다. 한국어 혐오 표현 데이터셋과 인도네시아어 및 독일어 사용자를 대상으로 평가한 결과, 78%의 정확도를 달성하여 GPT-4o의 71% 기준 성능을 능가하고, 인간의 작업량을 83.6% 감소시켰습니다. LLM이 어려워하는 미묘한 내용에서는 인간 모더레이터가 뛰어난 성능을 보였습니다.

시사점, 한계점

시사점:
LLM을 활용하여 저자원 언어의 혐오 표현 조정 효율성을 높일 수 있음을 보여줌.
비원어 사용자 모더레이터의 역할 강화 및 효과적인 지원 방안 제시.
인간과 LLM의 협업을 통한 강점 상호 보완 가능성 확인.
LLM 기반 시스템의 정확도 향상 및 인간 작업량 감소 효과 확인.
한계점:
특정 저자원 언어(한국어)와 제한된 비원어 사용자(인도네시아어, 독일어) 집단에 대한 평가 결과임. 일반화 가능성에 대한 추가 연구 필요.
사용된 데이터셋의 크기와 다양성에 대한 명확한 언급 부족. 데이터 편향 가능성 고려 필요.
LLM-C3MOD의 확장성 및 다른 언어 및 문화권으로의 적용 가능성에 대한 추가 연구 필요.
RAG 기반 문화적 맥락 주석의 질적 평가 및 신뢰도에 대한 추가적인 검토 필요.
👍