Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Are the confidence scores of reviewers consistent with the review content? Evidence from top conference proceedings in AI

Created by
  • Haebom

저자

Wenqing Wu, Haixu Xi, Chengzhi Zhang

개요

본 논문은 AI 학회 심사에서의 평가자 신뢰도 점수와 심사 보고서 텍스트 간의 일관성을 심층적으로 분석합니다. 심사 보고서의 단어, 문장, 측면 수준에서 일관성을 평가하기 위해 심층 학습과 자연어 처리 기법을 활용합니다. 구체적으로, 보고서 길이, 완화적 표현(hedge)의 단어/문장 빈도, 측면 언급, 감정 분석 등을 통해 텍스트와 점수의 정렬을 평가하고, 상관관계, 유의성 검정, 회귀 분석을 통해 신뢰도 점수가 논문 결과에 미치는 영향을 분석합니다. 결과적으로 모든 수준에서 높은 텍스트-점수 일관성을 확인하였고, 회귀 분석을 통해 높은 신뢰도 점수가 논문 거절과 상관관계가 있음을 밝혀, 전문가 평가 및 동료 심사의 공정성을 검증합니다.

시사점, 한계점

시사점:
AI 학회 심사에서 평가자 신뢰도 점수의 타당성을 심층적으로 분석하고 검증했습니다.
심사 보고서의 단어, 문장, 측면 수준에서의 텍스트-점수 일관성을 정량적으로 측정하는 방법을 제시했습니다.
높은 신뢰도 점수가 논문 거절과 상관관계가 있음을 밝혀, 동료 심사의 공정성을 강화하는 데 기여할 수 있습니다.
심층 학습과 자연어 처리 기법을 활용하여 심사 과정의 효율성과 투명성을 높일 수 있는 가능성을 제시했습니다.
한계점:
분석에 사용된 데이터가 특정 AI 학회에 국한되어 일반화 가능성에 제한이 있을 수 있습니다.
완화적 표현(hedge)의 자동 감지 정확도에 따라 분석 결과의 신뢰도가 영향을 받을 수 있습니다.
다른 유형의 학문 분야나 심사 시스템에 대한 일반화 가능성을 추가적으로 검증해야 합니다.
본 연구는 상관관계를 제시하지만, 인과관계를 완전히 규명하지는 못했습니다.
👍