Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond Keywords: Evaluating Large Language Model Classification of Nuanced Ableism

Created by
  • Haebom

저자

Naba Rizvi, Harper Strickland, Saleha Ahmedi, Aekta Kallepalli, Isha Khirwadkar, William Wu, Imani N. S. Munyaka, Nedjma Ousidhoum

개요

본 논문은 대규모 언어 모델(LLM)이 이력서 심사 및 콘텐츠 조정과 같은 의사결정 과업에 점점 더 많이 사용됨에 따라 특정 관점을 증폭하거나 억압할 수 있는 능력을 갖게 되었다는 점을 배경으로 합니다. 기존 연구에서는 LLM에서 장애 관련 편향이 확인되었지만, LLM이 능력주의(ableism)를 어떻게 개념화하고 텍스트에서 감지하는지에 대해서는 거의 알려진 바가 없습니다. 본 연구는 네 개의 LLM이 자폐인에 대한 미묘한 능력주의를 식별하는 능력을 평가합니다. LLM의 관련 용어 이해와 맥락에서 능력주의적 콘텐츠를 인식하는 효과 사이의 차이를 조사합니다. 연구 결과, LLM은 자폐증 관련 언어를 식별할 수 있지만, 종종 해롭거나 불쾌한 함축을 놓치는 것으로 나타났습니다. 또한, 인간과 LLM 설명의 질적 비교를 수행하여 LLM이 표면적인 키워드 일치에 의존하여 맥락을 잘못 해석하는 경향이 있는 반면, 인간 평가자는 맥락, 화자 정체성 및 잠재적 영향을 고려한다는 것을 발견했습니다. 반면에 LLM과 인간 모두 주석 체계에 동의하여 이진 분류가 LLM 성능 평가에 적합함을 시사하며, 이는 인간 평가자를 포함한 이전 연구 결과와 일치합니다.

시사점, 한계점

시사점: LLM이 자폐증 관련 언어를 식별할 수 있지만, 맥락과 함축을 이해하는 데 어려움을 겪는다는 것을 보여줍니다. 인간과 LLM의 설명 비교를 통해 LLM의 한계를 명확히 제시합니다. 이진 분류가 LLM 성능 평가에 적합하다는 것을 시사합니다.
한계점: 본 연구는 네 개의 LLM만을 대상으로 하였으며, 자폐인에 대한 능력주의에만 초점을 맞추었습니다. 다양한 장애 유형 및 더욱 다양한 LLM에 대한 추가 연구가 필요합니다. LLM이 맥락과 함축을 이해하는 능력을 향상시키기 위한 추가 연구가 필요합니다.
👍