Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation

Created by
  • Haebom

저자

Maria Eriksson, Erasmo Purificato, Arman Noroozian, Joao Vinagre, Guillaume Chaslot, Emilia Gomez, David Fernandez-Llorca

개요

본 논문은 지난 10년간 발표된 약 100편의 연구를 바탕으로, 정량적 인공지능(AI) 벤치마킹 관행의 단점을 다루는 학제 간 메타 분석 연구이다. 데이터셋 생성의 편향, 부적절한 문서화, 데이터 오염, 신호와 잡음의 구분 실패와 같은 벤치마킹 설계 및 응용의 세부적인 문제점과, 텍스트 기반 AI 모델에 대한 일회성 테스트 로직의 과도한 집중, 다중 모드 AI 모델과 인간 및 다른 기술 시스템과의 상호 작용 고려 실패 등의 광범위한 사회기술적 문제점을 함께 제시한다. 또한, 불일치하는 인센티브, 구성 타당성 문제, 알려지지 않은 미지의 위험, 벤치마킹 결과 조작 문제 등 현재 벤치마킹 관행의 여러 체계적 결함을 강조하고, 최첨단 성능을 우선시하는 문화적, 상업적, 경쟁적 역학으로 인해 더 넓은 사회적 우려가 종종 간과되는 점을 지적한다. 기존 벤치마킹 절차와 관련된 위험을 개괄적으로 제시함으로써, 벤치마킹에 대한 과도한 신뢰에 대한 문제점을 제기하고, 실제 시나리오의 복잡성 속에서 정량적 AI 벤치마킹의 책임성과 관련성을 개선하기 위한 지속적인 노력에 기여한다.

시사점, 한계점

시사점:
정량적 AI 벤치마킹의 사회기술적 영향과 한계에 대한 포괄적인 이해를 제공한다.
AI 벤치마킹의 편향, 부정확성, 조작 가능성 등의 위험을 명확히 밝힌다.
더욱 책임감 있고 관련성 있는 AI 벤치마킹 관행을 위한 개선 방향을 제시한다.
AI 모델 평가에 대한 다각적이고 균형 잡힌 접근의 필요성을 강조한다.
한계점:
메타 분석에 사용된 연구의 선택 기준 및 방법론에 대한 자세한 설명이 부족할 수 있다.
제시된 문제점에 대한 구체적인 해결책이 부족할 수 있다.
벤치마킹 관행의 개선에 필요한 구체적인 정책적 제언이 부족할 수 있다.
특정 분야 또는 유형의 AI 모델에 대한 벤치마킹 관행에만 초점을 맞추었을 가능성이 있다.
👍