Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Token embeddings violate the manifold hypothesis

Created by
  • Haebom

저자

Michael Robinson, Sourya Dey, Tony Chiang

개요

본 논문은 대규모 언어 모델(LLM)의 입력 공간인 토큰 임베딩의 구조를 경험적 및 이론적으로 규명합니다. 각 토큰의 이웃이 잘 정의된 신호 및 노이즈 차원으로 분리되는 일반화되고 통계적으로 검증 가능한 모델을 제시합니다. 이 모델은 파이버 번들(fiber bundle)이라는 다양체의 일반화에 기반하며, "파이버 번들 귀무가설"이라는 가설 검정으로 표현됩니다. 귀무가설을 기각하지 못하는 것은 정보가 없음을 의미하지만, 특정 토큰에서 귀무가설을 기각하면 그 토큰이 통계적으로 유의미한 국소 구조를 가지고 있음을 나타냅니다. 여러 오픈소스 LLM에 대한 검정 결과, 귀무가설이 자주 기각되어 토큰 부분 공간이 파이버 번들이 아니며 따라서 다양체도 아님을 증명합니다. 결론적으로, 의미상 동등한 두 프롬프트가 주어졌을 때, 하나의 프롬프트에 검정 결과에서 문제가 된 토큰이 포함되어 있다면, 그 프롬프트는 토큰의 국소 신호 차원에 비례하여 더 큰 출력 변동성을 보일 가능성이 높습니다.

시사점, 한계점

시사점: LLM의 입력 공간 구조에 대한 이해를 심화시켜, LLM의 동작을 더 정확하게 예측하고 제어할 수 있는 가능성을 제시합니다. 의미상 동등한 프롬프트에 대한 출력 변동성의 원인을 설명하고 예측할 수 있는 새로운 분석틀을 제공합니다.
한계점: 제시된 모델은 파이버 번들에 기반한 통계적 검정에 의존하므로, 파이버 번들 이외의 다른 구조를 갖는 입력 공간에 대해서는 적용 범위가 제한될 수 있습니다. 검정 결과가 긍정적이더라도, 그 원인을 명확히 규명하기 위해서는 추가적인 분석이 필요할 수 있습니다. 특정 LLM과 오픈소스 데이터에 대한 분석 결과이므로, 다른 LLM이나 데이터셋으로 일반화하는 데는 주의가 필요합니다.
👍