Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Splits! A Flexible Dataset for Evaluating a Model's Demographic Social Inference

Created by
  • Haebom

저자

Eylon Caplan, Tania Chakraborty, Dan Goldwasser

개요

본 논문은 다양한 인구 통계적 집단의 사고방식, 감정, 표현 방식(집단 표현)에 대한 이해가 사회 과학에 필수적이며, 대규모 언어 모델(LLMs)의 편향 평가의 기초가 된다는 점을 강조합니다. LLMs는 경험적 사례가 주어지면 집단 표현을 효과적으로 요약할 수 있지만, 실제 텍스트에서 집단 표현이 어떻게 나타나는지에 대한 일반화 가능한 이론을 제시하는 것은 어렵습니다. 따라서 본 논문에서는 집단 간 표현의 차이를 구분하는 이론을 작성해야 하는 새로운 과제인 "Group Theorization"을 정의합니다. 이를 위해 중립적인 주제(예: 스포츠, 요리, 영화)와 인구 통계적 특징(예: 직업, 종교, 인종)으로 Reddit 게시물을 분할하여 구성된 대규모 데이터셋인 "Splits!"를 공개합니다. 마지막으로, 인간 검증을 바탕으로 방법이 얼마나 효과적으로 '더 나은' 집단 표현 이론을 생성하는지 평가하기 위한 간단한 평가 프레임워크를 제안합니다. 연구자들이 방법이 집단 표현의 차이를 어떻게 추론하고 왜곡하는지 평가할 수 있도록 "Splits!"의 원시 코퍼스와 평가 스크립트를 공개합니다("Splits!" 및 평가 모듈은 https://github.com/eyloncaplan/splits 에서 이용 가능).

시사점, 한계점

시사점:
집단 표현에 대한 이론을 생성하는 새로운 과제인 "Group Theorization"을 제시하고, 이를 위한 대규모 데이터셋 "Splits!"을 공개함으로써 LLM의 편향성 평가 및 사회 과학 연구에 기여.
"Splits!" 데이터셋과 평가 모듈의 공개를 통해 LLM의 집단 표현 추론 및 잠재적 왜곡에 대한 연구를 촉진.
인간 검증을 기반으로 한 평가 프레임워크 제시를 통해 Group Theorization 과제에 대한 객관적인 평가 가능.
한계점:
"Splits!" 데이터셋이 Reddit 데이터에 기반하므로, 다른 소셜 미디어 플랫폼이나 텍스트 데이터에는 일반화되지 않을 수 있음.
제시된 평가 프레임워크의 객관성 및 신뢰성에 대한 추가 연구 필요.
Group Theorization 과제의 정의 및 평가 지표가 주관적일 수 있음.
👍