Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Hallucinations to Jailbreaks: Rethinking the Vulnerability of Large Foundation Models

Created by
  • Haebom

저자

Haibo Jin, Peiyan Zhang, Peiran Wang, Man Luo, Haohan Wang

개요

대규모 기초 모델(LFMs)은 환각과 탈옥 공격이라는 두 가지 취약성에 취약합니다. 일반적으로 개별적으로 연구되지만, 한쪽을 겨냥한 방어가 다른 쪽에도 영향을 미치는 것을 관찰하여 더 깊은 연관성을 암시합니다. 본 논문은 탈옥을 토큰 수준 최적화로, 환각을 어텐션 수준 최적화로 모델링하는 통합 이론적 프레임워크를 제안합니다. 이 프레임워크 내에서 두 가지 주요 명제를 확립합니다. (1) 유사한 손실 수렴: 목표 특정 출력을 최적화할 때 두 취약성에 대한 손실 함수가 유사하게 수렴합니다. (2) 어텐션 재분배의 기울기 일관성: 공유된 어텐션 역학에 의해 구동되는 일관된 기울기 동작을 모두 보입니다. LLaVA-1.5 및 MiniGPT-4에서 경험적으로 이러한 명제를 검증하여 일관된 최적화 추세와 정렬된 기울기를 보여줍니다. 이러한 연관성을 활용하여 환각에 대한 완화 기술이 탈옥 성공률을 줄일 수 있고 그 반대의 경우도 가능함을 보여줍니다. 이러한 결과는 LFM의 공유된 실패 모드를 보여주며 강력한 전략은 두 가지 취약성을 공동으로 해결해야 함을 시사합니다.

시사점, 한계점

시사점:
대규모 기초 모델의 환각과 탈옥 공격이 공유된 실패 모드를 가지고 있음을 밝힘.
환각 완화 기법이 탈옥 공격 성공률 감소에 기여하고, 그 반대의 경우도 가능함을 제시.
LFM의 강건성을 높이기 위한 전략은 환각과 탈옥 공격 두 가지 취약성을 동시에 고려해야 함을 시사.
토큰 수준 최적화와 어텐션 수준 최적화라는 통합된 이론적 프레임워크를 제시.
한계점:
제시된 프레임워크와 실험 결과가 LLaVA-1.5와 MiniGPT-4 모델에만 국한됨. 다른 LFM 모델에 대한 일반화 가능성은 추가 연구가 필요.
실험적 검증에 사용된 모델의 종류와 규모가 제한적임. 더 다양한 모델에 대한 추가 실험이 필요.
제안된 이론적 프레임워크의 일반성과 적용 범위에 대한 추가적인 연구가 필요.
👍