GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory

Created by

Haebom

저자

Pepijn Cobben, Xuanqiang Angelo Huang, Thao Amelia Pham, Isabel Dahlgren, Terry Jingchen Zhang, Zhijing Jin

💡 개요

기존 AI 안전 벤치마크는 주로 단일 에이전트 평가에 집중하여 조정 실패 및 갈등과 같은 다중 에이전트 위험을 간과해 왔습니다. 본 논문은 죄수의 딜레마, 사슴 사냥, 치킨 게임 등 게임 이론 구조를 기반으로 하는 2,009개의 고위험 시나리오로 구성된 GT-HarmBench를 제안합니다. 15개의 최첨단 모델에 대한 평가 결과, 사회적으로 유익한 행동 선택 비율이 62%에 불과하여 종종 해로운 결과로 이어지는 것으로 나타났습니다.

🔑 시사점 및 한계

•

GT-HarmBench는 다중 에이전트 환경에서의 AI 안전성을 평가하기 위한 표준화된 테스트베드를 제공합니다.

•

게임 이론적 프롬프트 구성 및 순서 변화에 대한 민감성을 측정하고 실패를 유발하는 추론 패턴을 분석할 수 있는 방법을 제시합니다.

•

게임 이론적 개입을 통해 사회적으로 유익한 결과 비율을 최대 18%까지 향상시킬 수 있음을 보여줍니다.

•

아직 다중 에이전트 환경에서 AI의 신뢰성 부족이 심각하며, 이러한 위험을 해결하기 위한 추가 연구와 개발이 필요합니다.

PDF 보기

Made with Slashpage