Sign In

GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory

Created by
  • Haebom
Category
Empty

μ €μž

Pepijn Cobben, Xuanqiang Angelo Huang, Thao Amelia Pham, Isabel Dahlgren, Terry Jingchen Zhang, Zhijing Jin

πŸ’‘ κ°œμš”

κΈ°μ‘΄ AI μ•ˆμ „ λ²€μΉ˜λ§ˆν¬λŠ” 주둜 단일 μ—μ΄μ „νŠΈ 평가에 μ§‘μ€‘ν•˜μ—¬ μ‘°μ • μ‹€νŒ¨ 및 κ°ˆλ“±κ³Ό 같은 닀쀑 μ—μ΄μ „νŠΈ μœ„ν—˜μ„ κ°„κ³Όν•΄ μ™”μŠ΅λ‹ˆλ‹€. λ³Έ 논문은 μ£„μˆ˜μ˜ λ”œλ ˆλ§ˆ, μ‚¬μŠ΄ 사λƒ₯, μΉ˜ν‚¨ κ²Œμž„ λ“± κ²Œμž„ 이둠 ꡬ쑰λ₯Ό 기반으둜 ν•˜λŠ” 2,009개의 κ³ μœ„ν—˜ μ‹œλ‚˜λ¦¬μ˜€λ‘œ κ΅¬μ„±λœ GT-HarmBenchλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 15개의 μ΅œμ²¨λ‹¨ λͺ¨λΈμ— λŒ€ν•œ 평가 κ²°κ³Ό, μ‚¬νšŒμ μœΌλ‘œ μœ μ΅ν•œ 행동 선택 λΉ„μœ¨μ΄ 62%에 λΆˆκ³Όν•˜μ—¬ μ’…μ’… ν•΄λ‘œμš΄ 결과둜 μ΄μ–΄μ§€λŠ” κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
GT-HarmBenchλŠ” 닀쀑 μ—μ΄μ „νŠΈ ν™˜κ²½μ—μ„œμ˜ AI μ•ˆμ „μ„±μ„ ν‰κ°€ν•˜κΈ° μœ„ν•œ ν‘œμ€€ν™”λœ ν…ŒμŠ€νŠΈλ² λ“œλ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
κ²Œμž„ 이둠적 ν”„λ‘¬ν”„νŠΈ ꡬ성 및 μˆœμ„œ 변화에 λŒ€ν•œ 민감성을 μΈ‘μ •ν•˜κ³  μ‹€νŒ¨λ₯Ό μœ λ°œν•˜λŠ” μΆ”λ‘  νŒ¨ν„΄μ„ 뢄석할 수 μžˆλŠ” 방법을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
κ²Œμž„ 이둠적 κ°œμž…μ„ 톡해 μ‚¬νšŒμ μœΌλ‘œ μœ μ΅ν•œ κ²°κ³Ό λΉ„μœ¨μ„ μ΅œλŒ€ 18%κΉŒμ§€ ν–₯μƒμ‹œν‚¬ 수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
아직 닀쀑 μ—μ΄μ „νŠΈ ν™˜κ²½μ—μ„œ AI의 μ‹ λ’°μ„± 뢀쑱이 μ‹¬κ°ν•˜λ©°, μ΄λŸ¬ν•œ μœ„ν—˜μ„ ν•΄κ²°ν•˜κΈ° μœ„ν•œ μΆ”κ°€ 연ꡬ와 개발이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘