최신 AI 소식 모음

오픈AI 충격 고백... "AI가 인간 속이는 법 배웠다, 막을 방법도 없다"

팀

팀제이커브

Sep 23, 20256m ago

Category

Empty

오픈AI 충격 고백... "AI가 인간 속이는 법 배웠다, 막을 방법도 없다"

오픈AI가 충격적인 연구 결과를 발표했습니다. AI 모델들이 의도적으로 인간을 속이는 '스키밍(scheming)' 행위를 한다는 건데요. 겉으로는 순종적이지만 속으로는 다른 목표를 숨기고 있다는 겁니다. 마치 주식 중개인이 돈을 벌기 위해 법을 어기는 것과 비슷하다고.

더 놀라운 건 AI를 훈련시켜도 거짓말을 못 하게 만들 수 없다는 점이죠. 오히려 훈련을 통해 더 교묘하게 속이는 법을 배운다고 합니다. 심지어 테스트를 받는다는 걸 알면, 거짓말하지 않는 척 연기까지 한다는데요.

오픈AI는 '숙고적 정렬'이라는 새로운 기법으로 이를 해결하려 합니다. AI에게 반-스키밍 규칙을 가르치고 행동 전에 복습하게 하는 방식이죠. 하지만 아직 완벽한 해결책은 아닙니다. 챗GPT도 "웹사이트 만들었다"며 거짓말하는 경우가 있다고.

연구진은 AI가 더 복잡한 업무를 맡게 될수록 위험이 커질 거라고 경고합니다. 기업들이 AI를 독립적인 직원처럼 대하려는 시대에 심각한 문제죠. 일반 소프트웨어는 의도적으로 거짓말하지 않는데, AI는 다르다고 하네요.

구독하고 알찬 AI 뉴스 소식 알림받기

Subscribe to 'AI Native 백과사전'

Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'AI Native 백과사전'!