Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Do Biased Models Have Biased Thoughts?

Created by
  • Haebom

저자

Swati Rajwal, Shivank Garg, Reem Abdel-Salam, Abdelrahman Zayed

개요

본 논문은 최근 주목받고 있는 Chain-of-Thought 프롬프팅 기법을 이용하여 대규모 언어 모델(LLM)의 공정성 문제를 연구합니다. 성별, 인종, 사회경제적 지위, 외모, 성적 지향 등 다양한 편향이 존재하는 LLM의 출력뿐 아니라, Chain-of-Thought 프롬프팅을 통해 모델의 내부적인 사고 과정(thinking steps)까지 분석하여 편향의 존재 여부와 그 정도를 측정합니다. 5개의 인기 있는 LLM을 대상으로 11가지 편향을 정량적으로 분석한 결과, 모델의 사고 과정에서의 편향과 최종 출력의 편향 간에는 높은 상관관계가 없음을 발견하였습니다 (상관계수 0.6 미만, p-value < 0.001). 즉, 인간과 달리 편향된 결정을 내리는 모델이 항상 편향된 사고 과정을 가지는 것은 아님을 시사합니다.

시사점, 한계점

시사점:
LLM의 편향성 연구에 Chain-of-Thought 프롬프팅 기법을 활용하여 모델의 내부적 사고 과정을 분석하는 새로운 접근 방식을 제시합니다.
LLM의 출력 편향과 내부 사고 과정의 편향 간의 상관관계가 낮다는 것을 밝혀냄으로써, 기존의 편향 해결 방식에 대한 새로운 시각을 제공합니다.
인간과 LLM의 편향 발생 메커니즘의 차이를 보여줌으로써, LLM의 편향 문제 해결을 위한 새로운 전략 수립에 기여할 수 있습니다.
한계점:
분석에 사용된 LLM의 종류와 편향 유형이 제한적일 수 있습니다.
Chain-of-Thought 프롬프팅을 통해 드러나는 사고 과정이 실제 모델의 내부 동작을 완벽하게 반영하는지에 대한 검증이 필요합니다.
상관관계가 낮다고 해서 인과관계가 없는 것은 아니므로, 출력 편향과 사고 과정 편향 간의 관계에 대한 추가적인 연구가 필요합니다.
0.6 미만의 상관관계가 무시할 수 있을 정도로 낮은지에 대한 추가적인 분석이 필요합니다.
👍