Benchmarking Safety Risks of Knowledge-Intensive Reasoning under Malicious Knowledge Editing

작성자

Haebom

카테고리

Empty

저자

Qinghua Mao, Xi Lin, Jinze Gu, Jun Wu, Siyuan Li, Yuliang Chen

💡 개요

본 연구는 지식 편집이 LLM의 안전성에 미치는 위험을 체계적으로 평가하기 위한 벤치마크인 EditRisk-Bench를 제안합니다. 기존 벤치마크와 달리, EditRisk-Bench는 악의적인 지식 주입이 다운스트림 추론 행동과 신뢰성에 미치는 영향을 평가하는 데 중점을 둡니다. 이를 통해 악의적인 지식 편집이 LLM의 정확성 및 안전성 저하를 유발할 수 있으며, 이는 탐지하기 어렵다는 것을 입증했습니다.

🔑 시사점 및 한계

•

지식 편집의 유연성이 LLM의 안전성 위험을 증가시킬 수 있음을 시사합니다.

•

악의적인 지식 편집은 LLM의 일반적인 능력을 유지하면서도 잘못되거나 안전하지 않은 추론을 유발할 수 있어 탐지가 어렵습니다.

•

EditRisk-Bench는 향후 LLM의 지식 편집 안전성을 이해하고 완화하기 위한 중요한 테스트베드를 제공합니다.

•

EditRisk-Bench는 다양한 악의적 시나리오, 다단계 추론 과제, 대표적인 편집 전략을 통합하여 포괄적인 평가를 제공하지만, 현실 세계의 모든 가능한 악의적 공격을 포괄하지는 못할 수 있습니다.

PDF 보기

Made with Slashpage