Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can we Debias Social Stereotypes in AI-Generated Images? Examining Text-to-Image Outputs and User Perceptions

Created by
  • Haebom

저자

Saharsh Barve, Andy Mao, Jiayue Melissa Shi, Prerna Juneja, Koustuv Saha

개요

본 논문은 생성형 AI의 텍스트-이미지(T2I) 생성 모델이 성별, 인종, 문화적 편견을 재현하고 증폭시키는 윤리적 문제점을 다룬다. 이를 해결하기 위해 이론에 기반한 편향 감지 기준과 사회적 고정관념 지수(SSI)를 제안하고, DALL-E-3, Midjourney-6.1, Stability AI Core 세 가지 주요 T2I 모델을 대상으로 지리문화적, 직업적, 형용사적 세 가지 범주에 걸쳐 100개의 질의를 사용하여 감사를 실시했다. 분석 결과, 초기 출력물은 성별 고정관념이 담긴 직업, 문화적 표식, 서구적 미적 기준 등의 고정관념적인 시각적 단서를 포함하는 경향이 있음을 밝혔다. LLM을 이용한 프롬프트 개선을 통해 편향을 상당히 줄였으며(SSI는 지리문화적 61%, 직업적 69%, 형용사적 51% 감소), 사용자 연구를 통해 AI 생성 편향 이미지에 대한 인식, 인지도, 선호도를 조사했다. 프롬프트 개선이 고정관념을 완화할 수 있지만, 문맥적 일관성을 제한할 수 있다는 핵심적인 긴장 관계를 발견했으며, 사용자들은 고정관념적인 이미지가 기대와 더 부합한다고 인식하는 경우가 많았다. 윤리적 편향 제거와 문맥적 관련성 사이의 균형을 맞출 필요성을 논하며, 실제 세계의 사회적 복잡성을 반영하면서도 세계적 다양성과 포용성을 지원하는 T2I 시스템의 필요성을 강조한다.

시사점, 한계점

시사점:
T2I 모델의 사회적 편향 문제를 체계적으로 평가하기 위한 이론 기반의 편향 감지 기준과 SSI 개발
LLM을 활용한 프롬프트 개선을 통한 T2I 모델의 편향 감소 가능성 제시 (유의미한 SSI 감소)
AI 생성 이미지의 편향에 대한 사용자 인식 및 선호도에 대한 심층적인 이해 제공
윤리적 편향 제거와 문맥적 관련성 사이의 균형 필요성 강조
세계적 다양성과 포용성을 고려한 T2I 시스템 개발의 중요성 제시
한계점:
특정 T2I 모델과 질의에 국한된 연구 결과로 일반화에 한계 존재
프롬프트 개선을 통한 편향 완화가 문맥적 일관성을 저해할 수 있다는 점
사용자 연구의 규모와 대상의 일반성에 대한 검토 필요
실제 세계의 사회적 복잡성을 완벽하게 반영하는 T2I 시스템 개발의 어려움
👍