Toward an Evaluation Science for Generative AI Systems
Created by
Haebom
Category
Empty
저자
Laura Weidinger, Deb Raji, Hanna Wallach, Margaret Mitchell, Angelina Wang, Olawale Salaudeen, Rishi Bommasani, Sayash Kapoor, Deep Ganguli, Sanmi Koyejo, William Isaac
개요
본 논문은 실세계 배포 환경에서 생성형 AI 시스템의 성능과 안전성을 예측하고 이해해야 할 필요성이 증가하고 있음을 강조한다. 현재의 평가 생태계는 정적 벤치마크의 타당성 문제와 임시적인 사례별 감사의 확장성 부족으로 부적절하다. 따라서 본 논문은 생성형 AI 시스템을 위한 평가 과학의 성숙을 옹호하며, 교통, 항공 우주, 제약 공학 등 다른 분야의 안전 평가 관행 개발에서 얻은 통찰력을 활용할 것을 제안한다. 특히, 실세계 성능에 적용 가능한 평가 지표, 반복적인 지표 개선, 그리고 평가 기관 및 규범 확립이라는 세 가지 주요 교훈을 제시하고, 이러한 통찰력을 적용하여 생성형 AI 시스템을 평가하기 위한 보다 엄격한 접근 방식을 위한 구체적인 방향을 제시한다.
시사점, 한계점
•
시사점:
◦
실세계 적용 가능한 평가 지표 개발의 중요성 강조
◦
평가 지표의 반복적인 개선 및 발전 필요성 제시
◦
생성형 AI 시스템 평가를 위한 기관 및 규범의 필요성 강조
◦
다른 분야의 안전 평가 관행에서 얻은 교훈을 생성형 AI 평가에 적용할 수 있는 구체적인 방향 제시
•
한계점:
◦
제시된 구체적인 방향이 아직 개념적인 수준에 머물러 있으며, 실제 적용을 위한 구체적인 방법론 부족