Sign In

BanglaNirTox: A Large-scale Parallel Corpus for Explainable AI in Bengali Text Detoxification

Created by
  • Haebom
Category
Empty

저자

Ayesha Afroza Mohsin, Mashrur Ahsan, Nafisa Maliyat, Shanta Maria, Syed Rifat Raiyan, Hasan Mahmud, Md Kamrul Hasan

개요

벵골어 텍스트의 독성 언어는 특히 온라인 환경에서 여전히 만연하며, 이에 대한 효과적인 예방 조치는 거의 없습니다. 본 논문에서는 Pareto 클래스 최적화된 대규모 언어 모델(LLM)과 Chain-of-Thought(CoT) 프롬프팅을 결합하여 벵골어 텍스트 해독 파이프라인을 제안합니다. 이를 위해, Pareto-최적화된 LLM을 사용하여 생성된 68,041개의 독성 벵골어 문장, 클래스별 독성 레이블, 추론 및 해독된 문구로 구성된 인공적으로 생성된 병렬 코퍼스인 BanglaNirTox를 구축했습니다. BanglaNirTox 데이터 세트는 언어 모델을 미세 조정하여 벵골어 문장의 더 나은 해독 버전을 생성하는 데 사용됩니다. 연구 결과에 따르면 CoT 프롬프팅을 사용한 Pareto-최적화 LLM이 벵골어 텍스트 해독의 품질과 일관성을 크게 향상시켰습니다.

시사점, 한계점

시사점:
벵골어 텍스트 해독에 대한 새로운 파이프라인 제안.
벵골어 텍스트 해독을 위한 대규모 데이터셋(BanglaNirTox) 구축.
Pareto-최적화 LLM과 CoT 프롬프팅의 결합을 통한 벵골어 텍스트 해독 성능 향상.
한계점:
논문 자체에서는 한계점에 대한 직접적인 언급이 없음. (하지만 논문의 범위를 벗어난 연구도 가능함)
벵골어라는 특정 언어에 국한된 연구. (다른 언어 적용 가능성 및 일반화에 대한 추가 연구 필요)
인공적으로 생성된 데이터셋의 품질 및 실제 텍스트 적용 가능성에 대한 추가 검증 필요.
👍