Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Whose Name Comes Up? Auditing LLM-Based Scholar Recommendations

Created by
  • Haebom

저자

Daniele Barolo, Chiara Valentin, Fariba Karimi, Luis Galarraga, Gonzalo G. Mendez, Lisette Espin-Noboa

개요

본 논문은 6개의 오픈-웨이트 대규모 언어 모델(llama3-8b, llama3.1-8b, gemma2-9b, mixtral-8x7b, llama3-70b, llama3.1-70b)을 사용하여 물리학 전문가 추천 성능을 평가한 연구입니다. 5가지 과제(분야별 상위 k명 전문가, 분야별 영향력 있는 과학자, 시대, 경력, 학자 유사성)를 통해 일관성, 사실성, 성별, 민족, 학문적 인기, 학자 유사성과 관련된 편향성을 분석했습니다. American Physical Society와 OpenAlex의 실제 데이터를 기반으로 모델 출력을 실제 학술 기록과 비교하여 벤치마크를 설정했습니다. 분석 결과, 모든 모델에서 일관성 부족과 편향성이 드러났으며, mixtral-8x7b가 가장 안정적인 출력을 생성했고, llama3.1-70b가 가장 변동성이 컸습니다. 많은 모델에서 중복이 발생했고, 특히 gemma2-9b와 llama3.1-8b는 형식 오류가 많았습니다. LLM은 대체로 실존하는 과학자를 추천했지만, 분야, 시대, 경력 특정 쿼리에서는 정확도가 떨어지고 고참 학자를 선호하는 경향을 보였습니다. 또한 성별 불균형(남성 과다 대표), 아시아계 과학자 과소 대표, 백인 학자 과대 대표 등의 대표성 편향이 지속되었습니다. 기관 및 협력 네트워크의 다양성에도 불구하고, 모델은 인용 횟수가 많고 생산성이 높은 학자를 선호하여 부익부빈익빈 현상을 강화하는 동시에 지리적 대표성은 제한적이었습니다.

시사점, 한계점

시사점: 대규모 언어 모델을 활용한 학술 전문가 추천 시스템 개발의 가능성과 동시에, 편향성 및 정확성 문제 해결의 필요성을 보여줌. 모델의 일관성과 사실성 향상을 위한 추가 연구 필요성 제기.
한계점: 분석 대상 모델이 제한적임. 평가 과제의 범위가 물리학 분야로 한정되어 일반화에 어려움. 편향성 완화를 위한 구체적인 해결 방안 제시 부족. 다양한 지표를 활용한 보다 포괄적인 평가 필요.
👍