Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Attributing Culture-Conditioned Generations to Pretraining Corpora

Created by
  • Haebom
Category
Empty

저자

Huihan Li, Arnav Goel, Keyu He, Xiang Ren

개요

본 논문은 개방형 생성 과제(예: 이야기 쓰기, 대화)에서 대규모 언어 모델이 문화적 편향을 보이는 현상을 다룬다. 특히, 덜 흔한 문화에 대한 지식이 부족하고 정형화된 결과물을 생성하는 경향을 분석한다. 이는 사전 학습 데이터의 불균형적인 문화적 표현 때문일 수 있다는 기존 연구 결과를 바탕으로, 모델이 사전 학습 데이터 패턴에 따라 어떻게 실체를 문화와 연결하는지 분석하여 편향된 문화 조건 생성의 원인을 조사한다. 이를 위해 MEMOed 프레임워크(사전 학습 문서에서의 기억화)를 제안하여 문화 조건 생성이 기억화에 의한 것인지 판별한다. 110개 문화의 음식과 의복에 대한 문화 조건 생성에 MEMOed를 적용한 결과, 사전 학습 데이터에서 고빈도 문화는 기억된 기호를 사용한 생성이 많았지만, 저빈도 문화는 생성이 없는 경우도 있었다. 또한, 모델은 관련성에 관계없이 사전 학습 데이터에서 매우 높은 빈도의 실체를 생성하는 경향을 보였다. 본 연구는 MEMOed 프레임워크와 통찰력을 통해 모델 성능을 사전 학습 데이터에 귀속시키는 연구를 촉진하고자 한다.

시사점, 한계점

시사점:
대규모 언어 모델의 문화적 편향이 사전 학습 데이터의 불균형적인 문화적 표현에 기인함을 보여줌.
MEMOed 프레임워크를 통해 모델의 문화 조건 생성에서 기억화의 역할을 분석 가능하게 함.
고빈도 문화에 대한 과도한 의존 및 저빈도 문화에 대한 소외 현상을 밝힘.
모델 성능 분석에 사전 학습 데이터의 영향을 고려해야 함을 시사.
한계점:
MEMOed 프레임워크의 일반화 가능성에 대한 추가 연구 필요.
분석 대상 문화의 수 제한(110개 문화).
음식과 의복이라는 제한된 범위의 데이터 사용.
다른 유형의 개방형 생성 과제에 대한 추가 연구 필요.
👍