Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Whose Name Comes Up? Auditing LLM-Based Scholar Recommendations

Created by
  • Haebom

저자

Daniele Barolo, Chiara Valentin, Fariba Karimi, Luis Galarraga, Gonzalo G. Mendez, Lisette Espin-Noboa

개요

본 논문은 6개의 오픈-웨이트 대규모 언어 모델(llama3-8b, llama3.1-8b, gemma2-9b, mixtral-8x7b, llama3-70b, llama3.1-70b)을 사용하여 물리학 전문가 추천 성능을 평가한 연구입니다. 5가지 과제(분야별 상위 k명 전문가, 학문 분야별 영향력 있는 과학자, 시대, 선임, 학자 대응)에 걸쳐 일관성, 사실성, 성별, 민족, 학문적 인기, 학자 유사성과 관련된 편향을 조사했습니다. 미국 물리학회(APS)와 OpenAlex의 실제 데이터를 기반으로 학문적 벤치마크를 설정하여 모델 출력을 실제 학술 기록과 비교했습니다. 분석 결과 모든 모델에서 일관성 부족 및 편향이 드러났으며, mixtral-8x7b가 가장 안정적인 출력을 생성한 반면 llama3.1-70b는 변동성이 가장 높았습니다. 많은 모델에서 중복이 나타났고, 특히 gemma2-9b와 llama3.1-8b는 형식 오류가 많았습니다. LLM은 일반적으로 실제 과학자를 추천하지만, 분야, 시대, 선임별 질의에서는 정확도가 떨어지고 고참 학자를 선호하는 경향이 일관되게 나타났습니다. 성별 불균형(남성 중심 반영), 아시아계 과학자의 과소 대표, 백인 학자의 과대 대표 등의 대표성 편향이 지속적으로 나타났습니다. 기관 및 협력 네트워크의 다양성에도 불구하고, 모델은 인용 횟수가 많고 생산적인 학자를 선호하여 부익부빈익빈 효과를 강화하는 동시에 지리적 대표성은 제한적이었습니다.

시사점, 한계점

시사점: 대규모 언어 모델을 이용한 학술 전문가 추천 시스템 개발의 가능성과 동시에 존재하는 편향 및 한계를 보여줌. 모델의 일관성 및 정확성 향상 필요성 제기. 학문적 추천 시스템의 공정성 확보를 위한 추가적인 연구 필요성 강조.
한계점: 평가에 사용된 데이터셋의 한계(APS와 OpenAlex 데이터에 국한). 분석 대상 모델의 제한(6개의 오픈-웨이트 LLM만 평가). 편향 해결을 위한 구체적인 해결 방안 제시 부족. 지리적 대표성 부족 문제에 대한 추가적인 분석 필요.
👍