Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Proactive Defense: Compound AI for Detecting Persuasion Attacks and Measuring Inoculation Effectiveness

Created by
  • Haebom
Category
Empty

저자

Svitlana Volkova, Will Dupree, Hsien-Te Kao, Peter Bautista, Gabe Ganberg, Jeff Beaubien, Laura Cassani

BRIES: 설득 공격 탐지 및 효과 측정 AI 아키텍처

개요

본 논문은 정보 환경에서 설득 공격의 탐지 및 효과 측정을 위해 설계된 새로운 복합 AI 아키텍처인 BRIES를 소개합니다. BRIES는 타겟 설득 전술을 사용하는 적대적 콘텐츠를 생성하는 Twister, 구성 가능한 매개변수를 통해 공격 유형을 식별하는 Detector, 콘텐츠 주입을 통해 탄력적인 콘텐츠를 생성하는 Defender, 인과 추론을 사용하여 주입 효과를 평가하는 Assessor로 구성됩니다. SemEval 2023 Task 3 분류법을 합성 설득 데이터 세트에 적용한 실험을 통해 다양한 언어 에이전트 간의 탐지 성능에 상당한 차이를 보였습니다.

시사점, 한계점

GPT-4는 복잡한 설득 기술에 대한 뛰어난 탐지 정확도를 보인 반면, Llama3 및 Mistral과 같은 오픈 소스 모델은 미묘한 수사법 식별에 약점을 보여, 서로 다른 아키텍처가 설득 언어 패턴을 근본적으로 다르게 인코딩하고 처리함을 시사합니다.
프롬프트 엔지니어링은 탐지 효율성에 큰 영향을 미치며, 온도 설정 및 신뢰도 점수는 모델별 변동을 생성합니다. Gemma와 GPT-4는 낮은 온도에서 최적으로 수행되는 반면, Llama3와 Mistral은 높은 온도에서 향상된 성능을 보입니다.
인과 분석은 설득 공격의 사회-정서-인지적 특징에 대한 새로운 통찰력을 제공하며, 서로 다른 공격 유형이 특정 인지적 차원을 목표로 함을 밝힙니다.
연구는 LLM의 설득 공격에 대한 취약성을 정량화하고, 유해한 콘텐츠 노출 전에 구조화된 개입을 통해 인간의 인지적 탄력성을 향상시키는 프레임워크를 제공하여 생성 AI 안전 및 인지 보안을 발전시킵니다.
👍