본 논문은 표준 영어가 아닌 영어 방언에 대한 편향을 보이는 대규모 언어 모델(LLM)의 문제를 해결하기 위해, 호주 영어(en-AU), 인도 영어(en-IN), 영국 영어(en-UK) 세 가지 영어 방언에 대한 감정 및 풍자 분류 벤치마크인 BESSTIE를 제시한다. Google Places 리뷰와 Reddit 댓글을 이용하여 데이터셋을 구축하고, 모국어 화자의 수동 주석 및 자동 언어 변종 예측을 통해 데이터셋의 정확성을 검증하였다. 9개의 다양한 LLM을 해당 데이터셋으로 미세 조정하여 성능을 평가한 결과, 특히 풍자 분류에서 내부 순환 방언(en-AU, en-UK)에 비해 en-IN의 성능이 낮게 나타났으며, 방언 간 일반화의 어려움을 보였다. BESSTIE 데이터셋은 공개적으로 제공되며, 공정한 LLM 연구에 유용한 평가 벤치마크가 될 것으로 기대된다.