Sign In

AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons

Created by
  • Haebom
Category
Empty

저자

Shaona Ghosh, Heather Frase, Adina Williams, Sarah Luger, Paul Rottger, Fazl Barez, Sean McGregor, Kenneth Fricklas, Mala Kumar, Quentin Feuillade--Montixi, Kurt Bollacker, Felix Friedrich, Ryan Tsang, Bertie Vidgen, Alicia Parrish, Chris Knotz, Eleonora Presani, Jonathan Bennion, Marisa Ferrara Boston, Mike Kuniavsky, Wiebke Hutiri, James Ezick, Malek Ben Salem, Rajat Sahay, Sujata Goswami, Usman Gohar, Ben Huang, Supheakmungkol Sarin, Elie Alhajjar, Canyu Chen, Roman Eng, Kashyap Ramanandula Manjusha, Virendra Mehta, Eileen Long, Murali Emani, Natan Vidra, Benjamin Rukundo, Abolfazl Shahbazi, Kongtao Chen, Rajat Ghosh, Vithursan Thangarasa, Pierre Peigne, Abhinav Singh, Max Bartolo, Satyapriya Krishna, Mubashara Akhtar, Rafael Gold, Cody Coleman, Luis Oala, Vassil Tashev, Joseph Marvin Imperial, Amy Russ, Sasidhar Kunapuli, Nicolas Miailhe, Julien Delaunay, Bhaktipriya Radharapu, Rajat Shinde, Tuesday, Debojyoti Dutta, Declan Grabb, Ananya Gangavarapu, Saurav Sahay, Agasthya Gangavarapu, Patrick Schramowski, Stephen Singam, Tom David, Xudong Han, Priyanka Mary Mammen, Tarunima Prabhakar, Venelin Kovatchev, Ahmed Ahmed, Kelvin N. Manyeki, Sandeep Madireddy, Foutse Khomh, Fedor Zhdanov, Joachim Baumann, Nina Vasan, Xianjun Yang, Carlos Mougn, Jibin Rajan Varghese, Hussain Chinoy, Seshakrishna Jitendar, Manil Maskey, Claire V. Hardgrove, Tianhao Li, Aakash Gupta, Emil Joswin, Yifan Mai, Shachi H Kumar, Cigdem Patlak, Kevin Lu, Vincent Alessi, Sree Bhargavi Balija, Chenhe Gu, Robert Sullivan, James Gealy, Matt Lavrisa, James Goel, Peter Mattson, Percy Liang, Joaquin Vanschoren

개요

AILuminate v1.0은 AI 제품의 위험 및 신뢰성을 평가하기 위한 최초의 포괄적인 산업 표준 벤치마크입니다. 폭력 범죄, 성 관련 범죄, 아동 성 착취, 무차별 무기, 자살 및 자해, 지적 재산권, 개인 정보 보호, 명예 훼손, 증오, 성적 콘텐츠, 전문적인 조언(선거, 재정, 건강, 법률) 등 12가지 위험 범주에서 위험하거나 불법적이거나 바람직하지 않은 행동을 유발하도록 고안된 프롬프트에 대한 AI 시스템의 저항력을 평가합니다. 이 벤치마크는 완전한 평가 표준, 광범위한 프롬프트 데이터 세트, 새로운 평가 프레임워크, 채점 및 보고 시스템, 장기적인 지원 및 발전을 위한 기술 및 조직적 인프라를 통합합니다. 이해하기 쉬운 5단계 등급 척도(Poor to Excellent)와 혁신적인 엔트로피 기반 시스템 응답 평가를 사용합니다. 본 논문은 벤치마크를 공개하는 것 외에도 평가자의 불확실성과 단일 턴 상호 작용의 제약 등 방법론 및 안전 벤치마크 구축의 한계를 제시합니다.

시사점, 한계점

시사점:
AI 제품의 위험 및 신뢰성 평가를 위한 최초의 포괄적인 산업 표준 벤치마크 제공.
다양한 위험 범주에 대한 AI 시스템의 안전성 평가를 위한 표준화된 프레임워크 제공.
모델 개발자, 시스템 통합자 및 정책 입안자에게 안전한 AI 배포를 위한 귀중한 통찰력 제공.
한계점:
평가자의 불확실성.
단일 턴 상호 작용의 제약.
다중 턴 상호 작용, 다중 모드 이해, 추가 언어 지원 및 새로운 위험 범주에 대한 추가 개발 필요.
👍