Sign In

RepV: Safety-Separable Latent Spaces for Scalable Neurosymbolic Plan Verification

Created by
  • Haebom
Category
Empty

저자

Yunhao Yang, Neel P. Bhatt, Pranay Samineni, Rohan Siva, Zhanyang Wang, Ufuk Topcu

개요

AI 시스템이 안전과 관련된 영역으로 확장됨에 따라, AI의 행동이 정의된 규칙을 준수하는지 검증하는 것은 중요한 과제가 되었습니다. 이 연구에서는 안전하고 안전하지 않은 계획을 선형적으로 분리할 수 있는 잠재 공간을 학습하는 신경 기호 검증기인 RepV를 제안합니다. RepV는 기존 모델 검사기로 레이블링된 계획의 초기 집합에서 시작하여, 각 계획과 언어 모델에서 생성된 설명을 저차원 공간에 임베딩하는 경량 프로젝터를 학습시킵니다. 고정된 선형 경계는 단일 전달 과정으로 보이지 않는 자연어 규칙에 대한 준수 여부를 검증합니다. RepV는 이진 분류를 넘어, 잠재 공간에서의 위치를 기반으로 올바른 검증의 확률적 보장을 제공하며, 이를 통해 인간의 주석 없이도 계획기의 보장 기반 개선이 가능합니다. 실험 결과 RepV는 기준 방법보다 최대 15%까지 규정 준수 예측 정확도를 향상시키면서 0.2M개 미만의 매개변수를 추가했습니다.

시사점, 한계점

시사점:
안전 관련 AI 시스템의 규칙 준수 검증 문제 해결에 기여.
신경 기호적 접근 방식을 통해 해석 가능성과 정확성 모두 확보.
확률적 보장을 제공하여 검증의 신뢰성 향상.
계획기 개선을 위한 프레임워크 제공.
기준 방법 대비 성능 향상 및 적은 파라미터 사용.
확장 가능하고 플러그 앤 플레이 방식의 신뢰할 수 있는 신경 기호 계획 검증 기술 제시.
한계점:
구체적인 한계점 정보는 제시된 텍스트에서 명시적으로 언급되지 않음. (예: 특정 도메인 또는 규칙의 복잡성 제한, 언어 모델 의존성, 잠재 공간의 학습 과정에서의 문제점 등)
👍