Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ALHD: A Large-Scale and Multigenre Benchmark Dataset for Arabic LLM-Generated Text Detection

Created by
  • Haebom

저자

Ali Khairallah, Arkaitz Zubiaga

ALHD: Arabic LLM-Generated Text Detection Dataset

개요

본 논문은 인간과 LLM(대규모 언어 모델)이 생성한 텍스트를 구별하도록 설계된 최초의 대규모 아랍어 데이터셋인 ALHD를 소개합니다. ALHD는 뉴스, 소셜 미디어, 리뷰의 세 가지 장르를 포괄하며, MSA(현대 표준 아랍어)와 아랍어 방언을 모두 다룹니다. 또한 세 개의 주요 LLM에서 생성되고 여러 인간 소스에서 비롯된 40만 개 이상의 균형 잡힌 샘플을 포함하여 아랍어 LLM 생성 텍스트 감지에서의 일반화 연구를 가능하게 합니다. 재현성을 위해 엄격한 전처리, 풍부한 주석 및 표준화된 균형 분할을 제공합니다. 또한 새로운 데이터셋을 사용하여 벤치마크 실험을 제시, 분석 및 논의하고, 격차를 파악하고 향후 연구 방향을 제안합니다.

시사점, 한계점

시사점:
아랍어 LLM 생성 텍스트 감지를 위한 새로운 대규모 데이터셋 구축.
다양한 장르와 아랍어 방언을 포함하여 일반화 연구를 위한 기반 마련.
BERT 기반 모델이 LLM 기반 모델보다 우수한 성능을 보이는 벤치마크 실험 결과 제시.
오정보, 학문적 부정행위 및 사이버 위협과 관련된 위험 완화에 기여.
한계점:
장르 간 일반화에 어려움이 존재하며, 특히 뉴스 기사에서 LLM 생성 텍스트가 인간 텍스트와 유사한 경우 어려움이 큼.
LLM 기반 모델의 성능이 제한적이며, 향후 연구를 통해 개선 필요.
새로운 데이터셋을 활용한 추가적인 연구와 모델 개발 필요.
👍