Sign In

Toward an Evaluation Science for Generative AI Systems

Created by
  • Haebom
Category
Empty

저자

Laura Weidinger, Deb Raji, Hanna Wallach, Margaret Mitchell, Angelina Wang, Olawale Salaudeen, Rishi Bommasani, Sayash Kapoor, Deep Ganguli, Sanmi Koyejo, William Isaac

개요

본 논문은 실세계 배포 환경에서 생성형 AI 시스템의 성능과 안전성을 예측하고 이해해야 할 필요성이 증가하고 있음을 강조한다. 현재의 평가 생태계는 정적 벤치마크의 타당성 문제와 임시적인 사례별 감사의 확장성 부족으로 부적절하다. 따라서 본 논문은 생성형 AI 시스템을 위한 평가 과학의 성숙을 옹호하며, 교통, 항공 우주, 제약 공학 등 다른 분야의 안전 평가 관행 개발에서 얻은 통찰력을 활용할 것을 제안한다. 특히, 실세계 성능에 적용 가능한 평가 지표, 반복적인 지표 개선, 그리고 평가 기관 및 규범 확립이라는 세 가지 주요 교훈을 제시하고, 이러한 통찰력을 적용하여 생성형 AI 시스템을 평가하기 위한 보다 엄격한 접근 방식을 위한 구체적인 방향을 제시한다.

시사점, 한계점

시사점:
실세계 적용 가능한 평가 지표 개발의 중요성 강조
평가 지표의 반복적인 개선 및 발전 필요성 제시
생성형 AI 시스템 평가를 위한 기관 및 규범의 필요성 강조
다른 분야의 안전 평가 관행에서 얻은 교훈을 생성형 AI 평가에 적용할 수 있는 구체적인 방향 제시
한계점:
제시된 구체적인 방향이 아직 개념적인 수준에 머물러 있으며, 실제 적용을 위한 구체적인 방법론 부족
다양한 생성형 AI 시스템의 특성을 고려한 차별화된 평가 방식 제시 부족
평가 기관 및 규범의 구축에 대한 현실적인 어려움과 장벽에 대한 논의 부족
👍