Sign In

Intolerable Risk Threshold Recommendations for Artificial Intelligence

Created by
  • Haebom
Category
Empty

저자

Deepika Raman, Nada Madkour, Evan R. Murphy, Krystal Jackson, Jessica Newman

개요

본 논문은 급속도로 발전하는 최첨단 AI 모델(Frontier AI models)이 공공 안전, 인권, 경제 안정, 사회적 가치에 심각한 위험을 초래할 수 있다는 점을 지적한다. 이러한 위험은 의도적인 악용, 시스템 오류, 예상치 못한 연쇄 효과 또는 여러 모델의 동시적 오류로 인해 발생할 수 있다. 2024년 AI 서울 정상회의에서 제시된 Frontier AI 안전 약속 이행을 위해, 모델 또는 시스템이 제기하는 심각한 위험이 적절히 완화되지 않을 경우 용납할 수 없는 수준으로 간주되는 역치를 결정하고 공개해야 할 필요성을 강조한다. 이를 위해 본 논문은 핵심 원칙과 고려 사항을 제시하고, 제한된 데이터와 급변하는 AI 기술 및 위험을 고려하여 '완벽이 아닌 좋은' 역치를 목표로 할 것을 제안한다. 화생방 무기, 사이버 공격, 모델 자율성, 설득 및 조작, 기만, 유해성, 차별, 사회경제적 혼란 등 8가지 위험 범주에 대한 구체적인 역치 권고안과 사례 연구를 제시하며, 정책 입안자와 업계 리더들을 위한 출발점 또는 보충 자료로서 기능하고자 한다. 핵심은 사후 완화가 아닌 사전 예방에 초점을 맞춘 적극적인 위험 관리를 장려하는 것이다.

시사점, 한계점

시사점:
최첨단 AI 모델의 위험성에 대한 구체적인 역치 설정 및 운영 방안 제시
8가지 위험 범주에 대한 사례 연구를 통해 실질적인 위험 관리 방안 모색
사전 예방적 위험 관리의 중요성 강조 및 정책 입안자와 업계 리더를 위한 실질적인 가이드라인 제공
'완벽이 아닌 좋은' 역치 설정이라는 현실적인 접근 방식 제시
한계점:
급속도로 발전하는 AI 기술의 특성상 제시된 역치가 장기적으로 유효할지는 불확실
제시된 역치의 실효성과 적용 가능성에 대한 추가적인 검증 필요
다양한 이해관계자 간의 합의 도출 및 실행 과정에서 어려움 발생 가능성
제시된 8가지 위험 범주 외 다른 위험 요소에 대한 고려 부족 가능성
데이터 부족으로 인한 역치 설정의 불확실성 존재
👍