Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

YouTube Comments Decoded: Leveraging LLMs for Low Resource Language Classification

Created by
  • Haebom
Category
Empty

저자

Aniket Deroy, Subhankar Maity

개요

본 논문은 소셜 미디어에서 드라비다어(타밀어-영어, 말라얄람어-영어) 코드 혼용 현상이 빈번한 상황에서의 풍자 감지 문제를 다룬다. 기존의 단일 언어 데이터로 학습된 시스템으로는 코드 혼용된 텍스트의 풍자와 감정 분석이 어렵다는 점을 지적하며, 타밀어-영어 및 말라얄람어-영어 코드 혼용 텍스트를 위한 새로운 골드 스탠다드 말뭉치를 소개한다. 본 연구에서는 GPT-3.5 Turbo와 같은 최신 대규모 언어 모델을 활용하여 프롬프팅 방식으로 풍자/비풍자 분류를 수행하고, 타밀어에 대해서는 0.61, 말라얄람어에 대해서는 0.50의 Macro-F1 score를 달성했다.

시사점, 한계점

시사점:
드라비다어 코드 혼용 텍스트를 위한 새로운 골드 스탠다드 말뭉치 제공.
대규모 언어 모델을 활용한 코드 혼용 텍스트 풍자 감지 가능성 제시.
한계점:
타밀어와 말라얄람어에 대한 Macro-F1 score가 상대적으로 낮음 (0.61, 0.50).
클래스 불균형 문제에 대한 구체적인 해결 방안 제시 부족.
다양한 모델 및 접근 방식과의 비교 분석 부족.
👍