Sign In
해봄의 아카이브

언어모델의 블랙박스를 밝혀라 : LLM은 어떻게 동작하는가?

Haebom
언어모델이라는 개념이 등장하고 이것이 동작하는 방법, 원리는 수차례 이야기를 해왔습니다. 어텐션 방식과 트렌스포머 방식은 이미 널리 알려진 작동 방법 중에 하나 입니다. 하지만 이것은 기존 ML에 관심 있는 분들이 이해하는 개념이지 일반적으로는 '그런게 있나보다' 정도로 받아드려 졌습니다. 이번 앤트로픽(Anthropic)에서 공개된 Scaling Monosemanticity 논문은 이런 인공지능(=언어모델로 대표되는)의 작동 원리를 좀 더 이해하기 쉽게 설명합니다.
일반적으로 '골든 게이트 브리지(The Golden Gate Bridge)'라는 단어를 들으면 어떤 생각이 드시나요? 어떤 분은 샌프란시스코의 금문교를 바로 떠올리는 분도 계실테고, 처음 듣는 분은 '황금색 문을 가진 다리인가?'라고 생각하실 겁니다. 우리의 머리 속에선 '샌프란시스코', '다리', '문', '다리' 등의 키워드를 기반으로 연상해서 생각을 구성합니다. 위 그림은 이런 관련된 개념들이 AI 모델 내에서 어떻게 위치하고 있는지를 시각적으로 보여줍니다.

주요 구성 요소 설명

Nearest neighbors to the Golden Gate Bridge feature (골든 게이트 브리지 기능의 인접 개념들):
이 부분은 '골든 게이트 브리지' 기능과 관련된 다른 기능들을 보여줍니다.
각 기능은 모델 내에서 서로 얼마나 가까운지를 나타냅니다.
San Francisco region (샌프란시스코 지역):
'골든 게이트 브리지' 기능과 밀접하게 관련된 개념들로, 주로 샌프란시스코와 관련된 다양한 참조를 포함합니다.
예를 들어, 'San Francisco, California', 'San Francisco references', 'San Francisco area locations' 등이 있습니다.
Earthquake region (지진 지역):
'골든 게이트 브리지' 기능과 연관성이 있는 지진 관련 개념들이 포함되어 있습니다.
'1906 SF earthquake', 'San Andreas fault system', 'Northridge and Loma Prieta earthquake' 등의 지진 관련 참조가 있습니다.
기타 관련 개념들:
샌프란시스코 49ers 팀, UC Berkeley identifiers, 뉴욕 시 구역, 에펠탑, 관광 명소와 랜드마크 등 다양한 지리적, 문화적 개념들이 포함되어 있습니다.
AI 모델이 텍스트를 이해하는 방식을 더 명확히 알기 위해, AI 모델 내부의 뉴런 활성화 패턴을 분석한 것입니다. '기능'은 여러 뉴런이 함께 활성화되는 패턴을 말하며, 이를 분석하면 AI가 어떻게 다양한 언어와 형식에서 동일한 개념을 이해하는지 알 수 있습니다. 이 연구를 통해 AI 모델의 작동 방식을 더 잘 이해하고, 이를 통해 모델을 더 안전하고 신뢰할 수 있게 만드는 데 도움이 됩니다.

주요 개념

1.
기능 추출 (Dictionary Learning):
AI 모델의 뉴런은 개별적으로 다양한 개념을 표현합니다.
'기능'이란 여러 뉴런의 활성화가 결합된 패턴입니다. 마치 여러 글자가 모여 단어를 만들듯이, 여러 뉴런의 조합이 특정 기능을 만들어냅니다.
기능을 분석하면 AI 모델이 텍스트를 어떻게 이해하는지 더 명확하게 알 수 있습니다.
2.
기능의 특성:
기능은 다양한 언어와 형식(텍스트, 이미지 등)에서 동일하게 나타날 수 있습니다.
예를 들어, '골든 게이트 브리지'라는 기능은 영어, 일본어, 중국어 등 다양한 언어로 된 텍스트에서 동일하게 활성화됩니다.
3.
기능 조작 실험:
특정 기능을 인위적으로 강화하거나 억제하여 AI 모델의 응답이 어떻게 변하는지 실험했습니다.
예를 들어, '골든 게이트 브리지' 기능을 활성화하면 모델이 거의 모든 질문에 '골든 게이트 브리지'를 언급하게 됩니다.

언어(Language) 밀도: 단어들은 어디에 모여 있는가?

1.
밀도(Density):
그래프의 왼쪽 상단 부분은 대부분의 데이터 포인트가 활성화 수준 0에 위치해 있음을 나타냅니다. 이는 대부분의 입력이 이 기능을 거의 활성화하지 않는다는 의미입니다.
2.
조건부 분포(Conditional Distribution):
활성화 수준(0에서 1까지)에 따른 기능의 활성화 분포를 나타냅니다.
색상은 Claude의 구체성 점수를 나타냅니다:
파란색 (0점): 관련 없음
연한 주황색 (1점): 모호하게 관련 있음
진한 주황색 (2점): 인접한 텍스트와 관련 있음
빨간색 (3점): 텍스트를 명확하게 식별함
3.
예시 입력 (Examples inputs sampled from intervals):
하단의 예시 입력은 각 활성화 구간 내에서 샘플링된 텍스트와 이미지를 보여줍니다.
왼쪽의 예시는 낮은 활성화 수준(0.1 ~ 0.3)을, 오른쪽의 예시는 높은 활성화 수준(0.7 ~ 1.0)을 나타냅니다.
예를 들어, 낮은 활성화 수준에서는 'Presidio', 'Union Square'와 같은 덜 관련된 텍스트가 나타납니다. 높은 활성화 수준에서는 '골든 게이트 브리지'가 명확히 언급된 텍스트가 나타납니다.

쉽게 이해하기

AI 모델이 텍스트를 이해하는 방식을 더 명확히 알기 위해, AI 모델 내부의 뉴런 활성화 패턴을 분석한 것입니다. '기능'은 여러 뉴런이 함께 활성화되는 패턴을 말하며, 이를 분석하면 AI가 어떻게 다양한 언어와 형식에서 동일한 개념을 이해하는지 알 수 있습니다. 이 연구를 통해 AI 모델의 작동 방식을 더 잘 이해하고, 이를 통해 모델을 더 안전하고 신뢰할 수 있게 만드는 데 도움이 됩니다.
이번 논문이 의미있는 것은 언어모델의 작동 방법이 좀 더 명확히 밝혀지고 있다는 것입니다. 앞으로 멀티모달 인공지능을 향한 속도가 더욱 빨라 진다는 의미이기도 합니다. 이런 위와 같은 뉴런 기반의 연상법들로 인해 언어모델을 어떻게 하면 더 잘 쓸 수 있는지에 대한 이야기도 나올 수 있구요.
Subscribe to 'haebom'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'haebom'!
Subscribe
1