# Manifold of Failure: Behavioral Attraction Basins in Language Models

### 저자

Sarthak Munshi, Manish Bhatt, Vineeth Sai Narajala, Idan Habler, Ammar Al-Kahfah, Ken Huang, Blake Gatto

### 💡 개요

본 논문은 AI 안전 연구에서 자연스러운 데이터 다형체로의 적대적 예제 투영에 집중하는 기존 연구와 달리, LLM의 실패 다형체 자체를 체계적으로 매핑하는 새로운 프레임워크를 제안합니다. 이를 위해 품질 다양성 문제로 취약점 탐색을 재정의하고, MAP-Elites를 사용하여 모델 행동이 의도된 정렬에서 가장 크게 벗어나는 영역인 "행동 유인 분지"의 연속적 위상을 조명합니다. 세 가지 LLM에 대한 실험 결과, 제안된 방법론이 높은 행동 범위를 달성하고 다양한 취약점 니치를 발견했으며, 모델별로 뚜렷하게 다른 위상학적 특징을 보여주었습니다.

### 🔑 시사점 및 한계

- **LLM 안전성 이해의 전환:** 기존의 개별적인 실패 사례 탐색에서 벗어나, 모델의 실패 영역 구조를 이해하는 새로운 패러다임을 제시합니다.

- **모델별 맞춤형 안전 강화 가능성:** 각 LLM의 고유한 실패 다형체 지도를 통해 모델의 취약점을 구조적으로 파악하고, 이에 기반한 효과적인 안전 강화 전략 수립의 토대를 마련합니다.

- **실패 영역의 근본적인 이해:** 다양한 LLM에 대한 실험을 통해 행동 유인 분지의 특성을 분석하고, 모델의 작동 방식에 대한 심층적인 이해를 제공합니다.

- **평가 지표의 개발 및 적용:** '정렬 편차(Alignment Deviation)'라는 새로운 품질 지표를 도입하여 실패 영역 탐색을 효과적으로 안내하였으나, 이 지표의 범용성 및 다른 안전 관련 지표와의 비교 연구가 필요합니다.

- **행동 유인 분지의 동적 변화:** 본 연구에서 매핑된 실패 다형체가 모델 업데이트 또는 파인튜닝에 따라 어떻게 변화하는지에 대한 동적인 분석은 향후 연구 과제로 남습니다.

---

[PDF 보기](https://arxiv.org/pdf/2602.22291)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
