Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Bias Similarity Across Large Language Models

Created by
  • Haebom

저자

Hyejun Jeong, Shiqing Ma, Amir Houmansadr

개요

본 논문은 대규모 언어 모델(LLM)의 편향성을 다양한 모델 패밀리, 규모, 튜닝 전략에 걸쳐 평가한 연구이다. 100만 개 이상의 구조화된 프롬프트를 사용하여 4가지 주요 패밀리의 24개 LLM을 평가하여 편향성 유사성을 기능적 유사성으로 재구성하였다. 모델 크기, 아키텍처, 지시 튜닝 또는 공개 여부가 공정성에 큰 영향을 미치지 않음을 발견하였으며, 편향된 행동은 맥락에 크게 의존하고 구조적으로 지속되며, 기존의 정렬 기술에 저항하는 경향이 있음을 밝혔다. 또한, 오픈소스 모델이 공정성과 유용성 측면에서 종종 독점 모델과 동등하거나 우수한 성능을 보임을 발견하였다.

시사점, 한계점

시사점:
LLM의 편향성은 모델 크기, 아키텍처, 튜닝 전략에 의해 결정되지 않고, 맥락에 크게 의존하며 구조적으로 지속됨을 보여줌.
기존의 편향성 평가 방식의 한계를 지적하고, 행동 기반의 모델별 감사의 필요성을 강조.
오픈소스 모델이 독점 모델에 비해 공정성 및 유용성 측면에서 뒤처지지 않음을 시사하며, 독점 모델에 대한 기본적인 의존성에 대한 재고 필요성 제기.
한계점:
평가에 사용된 프롬프트의 종류와 수가 연구 결과에 영향을 미칠 수 있음.
특정한 편향 유형에만 집중하여 다른 유형의 편향성은 고려되지 않았을 가능성.
평가된 모델의 대표성에 대한 논의 부족.
👍