Sign In

Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation

Created by
  • Haebom
Category
Empty

저자

D. Sculley, Will Cukierski, Phil Culliton, Sohier Dane, Maggie Demkin, Ryan Holbrook, Addison Howard, Paul Mooney, Walter Reade, Megan Risdal, Nate Keating

개요

본 논문은 생성형 AI(GenAI)의 경험적 평가가 위기에 처해있음을 주장한다. 기존의 기계학습 평가 및 벤치마킹 전략은 GenAI 모델 및 시스템 평가의 요구를 충족시키기에 부족하며, 그 이유로는 거의 무한한 입력 및 출력 공간, 명확하게 정의된 정답의 부재, 이전 모델 출력의 맥락에 기반한 강력한 피드백 루프 및 예측 의존성 등을 꼽는다. 특히, 데이터 유출(leakage)과 오염(contamination) 문제가 GenAI 평가에서 가장 중요하고 해결하기 어려운 문제라고 주장한다. AI 경진대회 분야에서 부정행위 방지를 위해 데이터 유출 문제를 해결하기 위한 효과적인 측정 및 관행이 개발되었다는 점에 주목하며, AI 경진대회를 GenAI 평가의 경험적 엄밀성에 대한 새로운 기준으로 삼고 그 결과를 활용해야 함을 제안한다.

시사점, 한계점

시사점: AI 경진대회의 방법론을 GenAI 평가에 적용하여 데이터 유출 및 오염 문제를 해결하고 평가의 엄밀성을 높일 수 있다. AI 경진대회를 GenAI 평가의 새로운 기준으로 활용할 수 있다는 가능성을 제시한다.
한계점: AI 경진대회의 방법론을 모든 GenAI 모델 및 시스템에 적용하는 데 어려움이 있을 수 있다. AI 경진대회의 결과가 실제 GenAI 시스템의 성능을 완벽하게 반영하지 못할 수 있다. 논문 자체가 position paper이므로 구체적인 방법론이나 실험적 증거가 부족하다.
👍