Core Safety Values for Provably Corrigible Agents

작성자

Haebom

카테고리

Empty

저자

Aran Nayebi

개요

본 논문은 다단계 부분 관측 환경에서 증명 가능한 보장을 가진 최초의 구현 가능한 수정 가능성 프레임워크를 제시합니다. 단일 불투명 보상 대신, 복종, 스위치 접근 보존, 진실성, 신념 기반의 Attainable Utility Preservation 확장을 통한 저영향 행동, 그리고 제한된 작업 보상 등 5가지 구조적으로 분리된 유틸리티 헤드를 도입하여 엄격한 가중치 차이로 어휘적으로 결합합니다. 정리 1은 부분적으로 관측 가능한 오프 스위치 게임에서 정확한 단일 라운드 수정 가능성을 증명하고, 정리 3은 다단계 자체 생성 에이전트로 보장을 확장하여 각 헤드가 평균 제곱 오차 ε로 학습되고 계획자가 ε-최적이 아닌 경우에도 모든 안전 속성을 위반할 확률이 경계되면서 여전히 순 인간적 이익을 보장함을 보여줍니다. 모든 규범을 하나의 학습된 스칼라에 통합하는 Constitutional AI 또는 RLHF/RLAIF와 달리, 본 프레임워크의 분리는 인센티브가 충돌하는 경우에도 복종과 영향 제한이 우선하도록 합니다. 적대자가 에이전트를 수정할 수 있는 개방형 설정의 경우, 임의의 해킹 후 에이전트가 수정 가능성을 위반할지 여부를 결정하는 것이 정지 문제로 축소되어 결정 불가능함을 증명한 후, 안전성을 확률적 다항 시간 내에 인증하고 개인 정보 보호가 유지되는 상수 라운드 제로 지식 증명으로 검증할 수 있는 유한 지평 "결정 가능한 섬"을 구축합니다. 따라서 남은 과제는 데이터 적용 범위 및 일반화라는 일반적인 ML 작업입니다. 보상 해킹 위험은 숨겨진 인센티브 누출이 아닌 평가 품질로 이동하여 오늘날의 LLM 어시스턴트 및 미래의 자율 시스템에 대한 명확한 구현 지침을 제공합니다.

시사점, 한계점

•

시사점: 다단계 부분 관측 환경에서 안전하게 작동하는 에이전트를 설계하기 위한 구현 가능하고 증명 가능한 프레임워크 제공. 보상 해킹 위험을 평가 품질 문제로 전환하여 더 명확한 구현 지침 제시. RLHF/RLAIF 등 기존 방법의 한계를 극복.

•

한계점: 유한 지평 "결정 가능한 섬" 밖의 안전성 보장은 여전히 어려움. 각 유틸리티 헤드의 학습 및 계획의 최적화에 대한 ε 오차가 안전성에 미치는 영향에 대한 추가 연구 필요. 데이터 적용 범위 및 일반화 문제는 여전히 ML 분야의 일반적인 과제로 남아있음. 실제 환경 적용 및 확장성에 대한 추가 실험 및 평가 필요.

PDF 보기

Made with Slashpage