Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BESSTIE: A Benchmark for Sentiment and Sarcasm Classification for Varieties of English

Created by
  • Haebom

저자

Dipankar Srirag, Aditya Joshi, Jordan Painter, Diptesh Kanojia

개요

본 논문은 표준 영어가 아닌 영어 방언에 대한 편향을 보이는 대규모 언어 모델(LLM)의 문제를 해결하기 위해, 호주 영어(en-AU), 인도 영어(en-IN), 영국 영어(en-UK) 세 가지 영어 방언에 대한 감정 및 풍자 분류 벤치마크인 BESSTIE를 제시한다. Google Places 리뷰와 Reddit 댓글을 이용하여 데이터셋을 구축하고, 모국어 화자의 수동 주석 및 자동 언어 변종 예측을 통해 데이터셋의 정확성을 검증하였다. 9개의 다양한 LLM을 해당 데이터셋으로 미세 조정하여 성능을 평가한 결과, 특히 풍자 분류에서 내부 순환 방언(en-AU, en-UK)에 비해 en-IN의 성능이 낮게 나타났으며, 방언 간 일반화의 어려움을 보였다. BESSTIE 데이터셋은 공개적으로 제공되며, 공정한 LLM 연구에 유용한 평가 벤치마크가 될 것으로 기대된다.

시사점, 한계점

시사점:
표준 영어 이외의 영어 방언에 대한 감정 및 풍자 분류를 위한 새로운 벤치마크 데이터셋 BESSTIE를 제공한다.
LLM의 방언별 성능 차이 및 방언 간 일반화의 어려움을 보여준다.
공정한 LLM 개발을 위한 방향을 제시한다.
BESSTIE 데이터셋은 공개적으로 접근 가능하다.
한계점:
데이터셋의 크기 및 균형에 대한 추가적인 검토가 필요할 수 있다.
평가에 사용된 LLM의 종류 및 수가 제한적일 수 있다.
다른 영어 방언에 대한 확장성 및 일반화 가능성에 대한 추가 연구가 필요하다.
👍