Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Social Bias in Popular Question-Answering Benchmarks

Created by
  • Haebom

저자

Angelie Kraft, Judith Simon, Sonja Schimmler

개요

본 논문은 대규모 언어 모델(LLM)의 지식 검색 및 재현 능력 평가에 필수적인 질의응답(QA) 및 독해(RC) 벤치마크가 편향되어 있으며, 다양한 인구 통계 또는 지역에 대한 질문을 대표적으로 다루지 않는다는 점을 보여줍니다. 이는 벤치마크 생성에 참여한 사람들의 다양성 부족 때문일 수 있습니다. 연구진은 30편의 벤치마크 논문에 대한 질적 내용 분석과 20개의 관련 벤치마크 데이터셋에 대한 양적 분석을 수행하여 (1) 벤치마크 생성에 누가 참여했는지, (2) 사회적 편향이 어떻게 해결되거나 예방되었는지, (3) 생성자와 주석자의 인구 통계가 내용의 특정 편향과 어떻게 상관되는지 알아냈습니다. 대부분의 분석된 벤치마크 논문은 특히 주석자와 관련하여 벤치마크 생성에 참여한 이해관계자에 대한 정보가 부족했습니다. 특히, 벤치마크 논문 중 단 한 편만이 사회적 대표성 문제를 해결하기 위해 취한 조치를 명시적으로 보고했습니다. 또한, 데이터 분석 결과 백과사전, 상식, 학술 벤치마크 전반에 걸쳐 성별, 종교, 지리적 편향이 드러났습니다. 더 공정한 LLM 개발을 촉진하기 위해서는 보다 투명하고 편향을 인식하는 QA 및 RC 벤치마크 생성 관행이 필요합니다.

시사점, 한계점

시사점: QA 및 RC 벤치마크의 편향성을 밝히고, 더 공정하고 대표적인 벤치마크 개발의 필요성을 강조합니다. 벤치마크 생성 과정의 투명성 확보와 사회적 대표성 고려의 중요성을 제시합니다.
한계점: 분석에 사용된 벤치마크 논문 및 데이터셋의 수가 제한적일 수 있습니다. 편향의 정도와 그 영향에 대한 정량적인 분석이 부족할 수 있습니다. 벤치마크 생성 과정에 대한 정보 부족으로 인해 편향의 근본 원인을 정확하게 파악하는 데 어려움이 있을 수 있습니다.
👍