Sign In

Attributions All the Way Down? The Metagame of Interpretability

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Hubert Baniecki, Przemyslaw Biecek, Fabian Fumagalli

πŸ’‘ κ°œμš”

λ³Έ 논문은 λͺ¨λΈ μ„€λͺ…(explanation)의 2μ°¨ μƒν˜Έμž‘μš© 효과λ₯Ό μ •λŸ‰ν™”ν•˜κΈ° μœ„ν•œ 'λ©”νƒ€κ²Œμž„(metagame)'μ΄λΌλŠ” κ°œλ…μ  ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 각 νŠΉμ§•(feature)이 λ‹€λ₯Έ νŠΉμ§•μ˜ μ„€λͺ…값에 λ―ΈμΉ˜λŠ” λ°©ν–₯μ„± μžˆλŠ” 영ν–₯을 'λ©”νƒ€μ–΄νŠΈλ¦¬λ·°μ…˜'으둜 μΈ‘μ •ν•˜λ©°, μ΄λŠ” μ„€λͺ… 방법둠을 ν˜‘λ ₯ κ²Œμž„μœΌλ‘œ κ°„μ£Όν•˜κ³  Shapley 값을 κ³„μ‚°ν•˜λŠ” λ°©μ‹μœΌλ‘œ μ΄λ£¨μ–΄μ§‘λ‹ˆλ‹€. 이λ₯Ό 톡해 μ–Έμ–΄ λͺ¨λΈ, λΉ„μ „-μ–Έμ–΄ 인코더, ν…μŠ€νŠΈ-이미지 생성 λͺ¨λΈ λ“± λ‹€μ–‘ν•œ λΆ„μ•Όμ—μ„œ μ„€λͺ…κ°€λŠ₯μ„±(interpretability)에 λŒ€ν•œ 깊이 μžˆλŠ” 톡찰을 μ œκ³΅ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ„€λͺ…κ°’ κ°„μ˜ λ³΅μž‘ν•œ μƒν˜Έμž‘μš©μ„ μ²΄κ³„μ μœΌλ‘œ λΆ„μ„ν•˜κ³  μ •λŸ‰ν™”ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ 방법둠을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
기쑴의 μƒν˜Έμž‘μš© μ§€μˆ˜λ₯Ό λ°©ν–₯μ„± 있게 ν™•μž₯ν•˜μ—¬ μ„€λͺ…에 λŒ€ν•œ 더 ν’λΆ€ν•œ 이해λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ AI λͺ¨λΈμ˜ μ„€λͺ…κ°€λŠ₯μ„± 뢄석에 λ©”νƒ€κ²Œμž„μ„ μ„±κ³΅μ μœΌλ‘œ μ μš©ν•˜μ—¬ κ·Έ μœ μš©μ„±μ„ μž…μ¦ν•©λ‹ˆλ‹€.
β€’
λ©”νƒ€κ²Œμž„μ˜ 계산 λ³΅μž‘μ„± 및 μ‹€μ œ 적용 μ‹œ μ„€λͺ… 방법둠 자체의 선택이 결과에 λ―ΈμΉ˜λŠ” 영ν–₯에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘