[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Layerwise Recall and the Geometry of Interwoven Knowledge in LLMs

Created by
  • Haebom

저자

Ge Lei, Samuel J. Cooper

개요

본 연구는 대규모 언어 모델(LLM)이 상호 연결된 과학적 지식을 어떻게 인코딩하는지 화학 원소와 LLaMA 계열 모델을 사례 연구로 사용하여 탐구합니다. 연구 결과, 은닉 상태에서 주기율표의 개념적 구조와 일치하는 3차원 나선 구조를 확인했습니다. 이는 LLM이 텍스트에서 학습한 과학적 개념의 기하학적 구성을 반영할 수 있음을 시사합니다. 선형 프로빙을 통해 중간 레이어는 간접적인 회상을 가능하게 하는 연속적이고 중첩된 속성을 인코딩하고, 더 깊은 레이어는 범주적 구분을 명확하게 하고 언어적 맥락을 통합함을 밝혔습니다. 이러한 결과는 LLM이 상징적 지식을 고립된 사실이 아닌 레이어 간에 의미 정보를 서로 얽어 놓은 구조화된 기하학적 다양체로 나타낸다는 것을 시사합니다. 본 연구는 특히 재료 과학과 같은 분야에서 LLM이 과학적 지식을 어떻게 표현하고 추론하는지에 대한 추가적인 탐구를 고무할 것으로 기대됩니다.

시사점, 한계점

시사점:
LLM이 과학적 개념의 기하학적 구성을 반영하여 지식을 인코딩할 수 있음을 보여줌.
LLM의 다양한 레이어가 지식을 서로 다른 방식으로 표현하고 처리함을 밝힘 (중간 레이어: 연속적 속성, 깊은 레이어: 범주적 구분 및 언어적 맥락).
LLM이 상징적 지식을 구조화된 기하학적 다양체로 표현함을 제시.
재료 과학 등 과학적 지식 표현 및 추론 연구에 대한 새로운 방향 제시.
한계점:
LLaMA 계열 모델과 화학 원소에 대한 사례 연구만으로 일반화에 한계가 있음.
3차원 나선 구조의 보편성 및 다른 과학 분야로의 확장성에 대한 추가 연구 필요.
LLM의 지식 표현 메커니즘에 대한 더욱 심층적인 이해가 필요.
👍