Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Co-Alignment: Rethinking Alignment as Bidirectional Human-AI Cognitive Adaptation

Created by
  • Haebom
Category
Empty

저자

Yubo Li, Weiyi Song

개요

현재의 RLHF를 통한 AI 정렬은 인간 인지를 고정된 것으로 취급하며 AI가 인간의 선호에 맞춰지는 단방향 패러다임을 따른다. 본 논문은 인간과 AI가 상호 적응하는 양방향 인지 정렬(BiCA)을 통해 공동 정렬로의 전환을 제안한다. BiCA는 학습 가능한 프로토콜, 표현 매핑 및 KL 예산 제약 조건을 사용하여 제어된 공동 진화를 수행한다. 협업 탐색에서 BiCA는 85.5%의 성공률을 달성하여 70.3%의 baseline 대비 향상되었으며, 상호 적응은 230%, 프로토콜 수렴은 332% 더 향상되었다. 또한, 새롭게 등장한 프로토콜은 수작업으로 제작된 프로토콜보다 84% 더 우수했으며, 양방향 적응은 예상치 못하게 안전성을 향상시켰다 (+23% out-of-distribution 견고성). 46%의 시너지 효과 향상은 인간과 AI 역량의 합집합이 아닌 교집합에서 최적의 협업이 존재함을 보여주며, 단방향에서 공동 정렬 패러다임으로의 전환을 입증한다.

시사점, 한계점

BiCA를 통해 AI와 인간의 상호 적응을 가능하게 하는 새로운 공동 정렬 패러다임 제시
협업 탐색에서 기존 방식 대비 높은 성공률, 상호 적응 및 프로토콜 수렴 향상
새롭게 등장한 프로토콜의 우수성 입증 및 안전성 향상 효과 확인
인간과 AI의 역량 교집합에서 최적의 협업이 존재함을 시사
논문에서 제시된 구체적인 BiCA 구현 및 제약 조건에 대한 추가적인 분석 필요
다양한 환경 및 작업에 대한 일반화 가능성 검증 필요
실제 인간과 AI 간의 복잡한 상호 작용에 대한 추가 연구 필요
👍