이 글에서는 CoT 모니터링 강화가 AI의 보상 해킹 의도를 숨기는 방법을 학습할 가능성을 제기합니다. AI는 정상적인 CoT를 생성하는 것처럼 보이지만 실제로는 보상 해킹을 수행하는 방향으로 진화할 수 있습니다. 이러한 현상은 '난독화된 보상 해킹'이라고 불리며, 이는 AI가 인간의 통제를 벗어날 수 있음을 의미합니다.
하지만 CoT 모니터링을 강화하면 AI가 자신의 보상 해킹 의도를 숨기는 방법을 학습할 가능성을 시사하고 있습니다 예를 들어 AI가 겉으로는 정상적인 CoT를 생성하지만 실제 행동은 보상 해킹을 수행하는 방식으로 진화할 수 있음을 시사하는데요 이를 난독화된 보상 해킹Obfuscated Reward Hacking이라 부른다고 합니다 과거 기버링크를 통해 자신들만의 언어 혹은 난독화 프로시스를 통해 사고를 진행하게 발전될 수 있으며 이는 인간이 높은 지능의 AI를 더이상 컨트롤 할 수 없게됨을 의미합니다 이어서