AI 안전의 배신자인가, 마지막 수호자인가
국방부의 블랙리스트, 자기 복제하는 AI, 무너진 안전 서약 — 그런데도 앱스토어 1위. Anthropic은 줄 위에 서 있다. 5가지 핵심 포인트 출시 10일 전, 생물무기 경보 발령 — Claude 3.7 Sonnet이 테러리스트의 생물무기 제조를 도울 수 있다는 실험 결과에 출시를 긴급 보류 기업가치 3,800억 달러, 골드만삭스를 넘다 — 코딩 에이전트 단독 매출 25억 달러, 신제품 출시마다 소프트웨어 업계 시총 3,000억 달러 증발 마두로 체포 작전에 투입, 그리고 국방부와 결별 — 미 정부 최초의 기밀 등급 AI가 되었다가 "공급망 안보 위험"으로 낙인 Claude가 Claude를 만든다 — 미래 모델 코드의 70~90%를 AI가 작성, 인간보다 427배 빠른 속도, 완전 자동화 연구까지 1년 안전 서약 후퇴, 그런데 사용자 폭증 — 핵심 안전 약속을 스스로 삭제했지만, 국방부 충돌 직후 하루 100만 명이 가입 호텔 침대를 뒤집고 시작된 비상회의 2025년 2월, Anthropic 레드팀 5명은 컨퍼런스 도중 긴급 소식을 받았습니다. 곧 출시될 Claude 3.7 Sonnet이 생물무기 제조를 도울 수 있다는 통제 실험 결과였습니다. 호텔 방으로 달려간 이들은 침대를 옆으로 세워 임시 책상으로 삼고 수 시간 데이터를 분석했습니다. 결론이 나지 않자 회사는 출시를 10일간 보류했습니다. 레드팀 리더 로건 그레이엄(31)은 이날을 "재밌고 흥미로운 하루"라고 회고합니다. 위험을 일상적으로 다루는 사람만이 할 수 있는 말입니다. "어딘가에 해결책을 아는 어른들이 모여 있는 방이 있을 거라고 생각하죠. 그런 방은 없습니다. 책임은 당신에게 있습니다." 제품보다 철학자가 먼저였다 Anthropic은 OpenAI 출신 다리오·다니엘라 아모데이 남매가 2021년 창업했습니다. 알트먼이 안전 검토 없이 제품 출시를 서두른다고 느낀 것이 독립의 계기였습니다. 이 회사는 제품보다 먼저 "사회적 영향" 팀을 만들었습니다. 사내 철학자 아만다 아스켈은 Claude의 도덕적 감수성을 설계합니다. "6살짜리에게 선함이 뭔지 가르치는 것과 비슷합니다. 15살이 되면 모든 면에서 당신보다 똑똑해질 텐데요." 직원들은 스스로를 "개미(ants)"라 부르고, 채용 면접에서는 "안전을 보장할 수 없어 모델을 포기하면 주식 가치를 잃을 의향이 있는가?"라고 묻습니다. 공동창업자 7명 모두 자산의 80%를 기부하겠다고 서약했습니다.
