Sign In

Not-in-Perspective: Towards Shielding Google's Perspective API Against Adversarial Negation Attacks

Created by
  • Haebom
Category
Empty

μ €μž

Michail S. Alexiou, J. Sukarno Mertoguno

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ†Œμ…œ λ―Έλ””μ–΄μ—μ„œμ˜ 사이버 폭λ ₯ μ¦κ°€λ‘œ 인해 μ€‘μš”μ„±μ΄ 컀진 μžλ™ν™”λœ μœ ν•΄μ„± 탐지 μ‹œμŠ€ν…œμ˜ 취약점을 λ‹€λ£Ήλ‹ˆλ‹€. 특히, κΈ°μ‘΄ 톡계 기반 기계 ν•™μŠ΅ λͺ¨λΈμ΄ 논리적 λ³€ν˜•, 특히 'λΆ€μ •(negation)'을 ν¬ν•¨ν•˜λŠ” μ λŒ€μ  곡격에 μ·¨μ•½ν•˜λ‹€λŠ” 문제λ₯Ό μ œκΈ°ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, λ³Έ μ—°κ΅¬λŠ” κΈ°μ‘΄ 기계 ν•™μŠ΅ λͺ¨λΈμ„ κ°μ‹ΈλŠ” ν˜•μ‹ μΆ”λ‘  기반의 방법둠을 μ œμ•ˆν•˜λ©°, μ΄λŠ” μ „μ²˜λ¦¬ 및 ν›„μ²˜λ¦¬ λ‹¨κ³„μ—μ„œ μœ ν•΄μ„± 점수의 μ •ν™•μ„±κ³Ό νš¨κ³Όμ„±μ„ 크게 ν–₯μƒμ‹œν‚€λŠ” κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν˜•μ‹ μΆ”λ‘  기반의 래퍼(wrapper)λ₯Ό 톡해 κΈ°μ‘΄ 기계 ν•™μŠ΅ 기반 μœ ν•΄μ„± 탐지 μ‹œμŠ€ν…œμ˜ μ λŒ€μ  λΆ€μ • 곡격에 λŒ€ν•œ 강건성을 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ ν•˜μ΄λΈŒλ¦¬λ“œ 방식(ν˜•μ‹ μΆ”λ‘  + 기계 ν•™μŠ΅)이 순수 톡계 기반 방식보닀 λ‹€μ–‘ν•œ μ λŒ€μ  λΆ€μ • 곡격에 λŒ€ν•΄ 더 μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μž„μ„ μ‹€ν—˜μ μœΌλ‘œ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 Google Perspective API와 같은 κΈ°μ‘΄ μ‹œμŠ€ν…œμ— 적용될 수 있으며, 온라인 μ½˜ν…μΈ  λͺ¨λ‹ˆν„°λ§ 및 μ€‘μž¬ μ‹œμŠ€ν…œμ˜ 신뒰성을 λ†’μ΄λŠ” 데 κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ‹œλœ ν˜•μ‹ μΆ”λ‘  λž˜νΌλŠ” λΆ€μ • 곡격에 νš¨κ³Όμ μ΄μ§€λ§Œ, λ‹€λ₯Έ μœ ν˜•μ˜ μ λŒ€μ  곡격(예: λ™μ˜μ–΄ λŒ€μ²΄, λ¬Έλ§₯ μ‘°μž‘ λ“±)에 λŒ€ν•œ νš¨κ³Όμ„±μ€ 좔가적인 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘