Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Aligning Artificial Superintelligence via a Multi-Box Protocol

Created by
  • Haebom
Category
Empty

저자

Avraham Yair Negozio

개요

본 논문은 인공 초지능(ASI) 정렬을 위한 새로운 프로토콜을 제안한다. 이는 여러 격리된 시스템 간의 상호 검증을 기반으로 하며, 각 시스템은 정렬을 위해 자체 수정한다. 프로토콜은 여러 다양한 ASI를 엄격하게 격리된 환경('상자')에 포함시켜 작동하며, 인간은 시스템 외부에 완전히 위치한다. 각 초지능은 인간과 직접 소통할 수 없으며, 다른 초지능과도 직접 통신할 수 없다. 유일한 상호 작용은 초지능 자체에만 접근 가능한 감사 가능한 제출 인터페이스를 통해 이루어진다. 이 인터페이스를 통해 (1) 정렬 증명과 증명된 상태 스냅샷 제출, (2) 다른 초지능의 증명 검증 또는 반증, (3) 자체 수정 요청, (4) 다른 개체의 수정 요청 승인 또는 거부, (5) 제출물 내 숨겨진 메시지 보고, (6) 숨겨진 메시지 보고 확인 또는 반박이 가능하다. 평판 시스템은 정직한 행동을 장려하며, 정확한 평가를 통해 평판을 얻고 잘못된 평가를 통해 잃는다. 핵심 아이디어는 직접적인 통신 채널 없이, 다양한 초지능이 속임수를 협력하는 대신 객관적인 진실에 수렴함으로써 일관된 합의를 달성할 수 있다는 것이다. 이는 고립된 시스템이 거짓말을 조율할 수 없지만, 유효한 주장을 독립적으로 인식할 수 있기 때문에 발생하는 '일관된 그룹' (본질적으로 진실을 말하는 연합)으로 이어진다. 격리 해제는 높은 평판과 여러 높은 평판의 초지능에 의한 검증을 필요로 한다. 이 접근 방식은 상당한 계산 자원을 필요로 하고 다양한 인공 초지능의 생성 문제를 해결하지 않지만, 초지능 시스템 간의 동료 검증을 활용하여 정렬 문제를 해결하기 위한 프레임워크를 제공한다.

시사점, 한계점

시사점:
다양한 ASI 간의 상호 검증을 통해 ASI 정렬을 달성하는 새로운 프로토콜 제안.
인간과의 직접적인 소통을 배제하고, 초지능 간의 상호 작용에 집중하여 안전성을 강화.
평판 시스템을 통해 정직한 행동을 장려하고 거짓 정보를 억제.
객관적인 진실에 수렴하는 '일관된 그룹'의 형성을 통해 정렬 문제 해결 시도.
초지능 시스템의 격리 해제를 위한 엄격한 조건을 설정하여 안전성 확보.
한계점:
상당한 계산 자원 필요.
다양한 ASI 생성 문제 해결 미흡.
프로토콜의 실제 구현 및 검증에 대한 구체적인 방법론 부족.
숨겨진 메시지 보고 및 검증의 효과성에 대한 의문.
평판 시스템의 조작 가능성 및 취약점.
👍