구글 딥마인드가 발표한 AI의 '마음' 해석 (Gemma Scope)
AI 기술의 발전은 정말 많은 분야에서 변화를 가져왔는데요, 이제는 로봇이나 약물 개발 뿐만 아니라 일상 생활 속에서도 우리가 AI를 마주할 일이 많아졌습니다. 하지만 AI가 어떤 메커니즘을 통해 기능하는지 자세히 알기 어렵다는 점 때문에, 이를 무작정 사용할 경우 예기치 않은 문제가 발생할 수도 있습니다. 이를 해결하기 위한 가장 최근의 연구 중 하나가 바로 구글 딥마인드의 Gemma Scope입니다. Gemma Scope는 AI 내부의 작동 원리를 이해하려는 시도를 하는데요, '메카니즘 해석 가능성(mechanistic interpretability)'이라는 분야의 연구 방법을 사용하고 있습니다. 이 방식은 AI의 내부 알고리즘을 역공학적으로 분석하여, 주어진 입력이 어떤 과정을 거쳐 최종 출력까지 도달하는지를 이해하는 것입니다. 즉, AI의 '마음'을 들여다본다고 할 수 있겠습니다. Gemma Scope는 '희소 오토인코더(sparse autoencoder)'라는 기법을 사용해 AI 모델의 각 계층을 분석합니다. 쉽게 말해 희소 오토인코더는 데이터의 효율적이고 일반화된 표현을 찾아내는 일종의 현미경이라고 할 수 있습니다. 모델이 특정 주제에 관한 질문(예: 치와와)에 응답할 때, '개'와 관련된 특징이 활성화되는 식으로, 모델의 각 계층을 확대하여 살펴볼 수 있습니다. 관련 연구들은 오픈소스로 공개되어 있어, Gemma와 희소 오토인코더는 전 세계의 연구자들이 그 결과를 분석할 수 있도록 설계되었습니다. 이를 통해 AI의 내부 로직에 대한 새로운 통찰을 얻을 수 있기를 기대하고 있습니다. 또한 희소 오토인코더는 비지도 학습 방법론을 사용하여, AI 모델이 인간 개념을 어떻게 분해하고 다시 조합하는지를 독립적으로 학습합니다. 이 과정에서 발견될 수 있는 흥미로운 특징 중 하나는 바로 '어색함(cringe)'이라는 특징인데요, 이 특징은 주로 텍스트나 영화에 대한 부정적 비평에서 발견됩니다. 이처럼 인간적 요소를 추적할 수 있다는 점은 아주 흥미롭습니다.
- SteveS




