현재의 RLHF를 통한 AI 정렬은 인간 인지를 고정된 것으로 취급하며 AI가 인간의 선호에 맞춰지는 단방향 패러다임을 따른다. 본 논문은 인간과 AI가 상호 적응하는 양방향 인지 정렬(BiCA)을 통해 공동 정렬로의 전환을 제안한다. BiCA는 학습 가능한 프로토콜, 표현 매핑 및 KL 예산 제약 조건을 사용하여 제어된 공동 진화를 수행한다. 협업 탐색에서 BiCA는 85.5%의 성공률을 달성하여 70.3%의 baseline 대비 향상되었으며, 상호 적응은 230%, 프로토콜 수렴은 332% 더 향상되었다. 또한, 새롭게 등장한 프로토콜은 수작업으로 제작된 프로토콜보다 84% 더 우수했으며, 양방향 적응은 예상치 못하게 안전성을 향상시켰다 (+23% out-of-distribution 견고성). 46%의 시너지 효과 향상은 인간과 AI 역량의 합집합이 아닌 교집합에서 최적의 협업이 존재함을 보여주며, 단방향에서 공동 정렬 패러다임으로의 전환을 입증한다.