From Refusal to Recovery: A Control-Theoretic Approach to Generative AI Guardrails

작성자

Haebom

카테고리

Empty

저자

Ravi Pandya, Madison Bland, Duy P. Nguyen, Changliu Liu, Jaime Fernandez Fisac, Andrea Bajcsy

💡 개요

기존 AI 안전 장치는 유해 콘텐츠 차단에 초점을 맞추었으나, 실제 환경에서 AI 시스템의 복잡한 상호작용으로 인해 발생하는 금전적, 물리적 피해와 같은 하류 위험을 예방하는 데는 한계가 있습니다. 본 연구는 AI 안전 문제를 순차적 의사결정 문제로 정의하고, 안전 비판 제어 이론을 AI 모델의 잠재 표현 공간에 적용하여 실시간으로 AI의 위험한 출력을 감지하고 이를 안전한 출력으로 능동적으로 교정하는 제어 이론 기반의 AI 안전 장치를 제안합니다.

🔑 시사점 및 한계

•

AI 안전의 동적 전환: AI 시스템의 지속적인 상호작용과 그로 인한 결과에 주목하여, 정적인 콘텐츠 차단을 넘어선 동적이고 예측적인 AI 안전 장치의 필요성을 제시합니다.

•

범용적인 적용 가능성: 특정 AI 모델에 국한되지 않고 다양한 AI 모델에 적용 가능한 모델 불변(model-agnostic) 방식의 안전 장치를 개발하여 확장성을 확보합니다.

•

훈련 및 검증: 실제 환경에서의 시뮬레이션 실험을 통해 제안된 제어 이론 기반 안전 장치가 잠재적인 파국적 결과를 효과적으로 방지하면서도 작업 성능을 유지함을 입증합니다.

•

향후 과제: 현실 세계에서의 적용 가능성을 더욱 높이기 위해 복잡하고 예측 불가능한 실제 환경에서의 다양한 시나리오에 대한 추가적인 연구와 검증이 필요합니다.

PDF 보기

Made with Slashpage