Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Interpreting the Repeated Token Phenomenon in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Itay Yona, Ilia Shumailov, Jamie Hayes, Federico Barbero, Yossi Gandelsman

개요

대규모 언어 모델(LLM)은 뛰어난 성능에도 불구하고, 단어 반복을 명령받았을 때 관련 없는 텍스트를 출력하는 등 정확하게 반복하지 못하는 경우가 종종 있습니다. 이러한 설명되지 않은 오류 모드는 취약점을 나타내며, 최종 사용자조차 모델을 의도된 동작에서 벗어나게 할 수 있습니다. 본 논문은 이 현상의 원인을 설명하고, 유창성에 중요한 LLM의 새로운 행동인 "어텐션 싱크(attention sinks)" 개념과 연결합니다. 어텐션 싱크는 초기 토큰이 불균형적으로 높은 어텐션 점수를 받는 현상입니다. 본 연구는 어텐션 싱크에 책임이 있는 신경 회로를 식별하고 긴 반복이 이 회로를 어떻게 방해하는지 보여줍니다. 또한 유사한 회로 방해를 보이는 다른 비반복 시퀀스로 이러한 발견을 확장합니다. 이를 해결하기 위해 모델의 전반적인 성능에 부정적인 영향을 미치지 않고 문제를 효과적으로 해결하는 표적 패치를 제안합니다. 이 연구는 LLM 취약성에 대한 기전적 설명을 제공하며, 해석 가능성이 문제를 진단하고 해결하는 방법을 보여주고 더 안전하고 신뢰할 수 있는 모델을 위한 길을 열어주는 통찰력을 제공합니다.

시사점, 한계점

시사점:
LLM의 단어 반복 실패 현상에 대한 기계적 설명 제공
"어텐션 싱크" 현상과의 연관성 규명 및 신경 회로 분석
문제 해결을 위한 표적 패치 제안 및 성능 개선 확인
해석 가능성을 활용한 LLM 취약점 진단 및 해결 방안 제시
더 안전하고 신뢰할 수 있는 LLM 개발을 위한 통찰력 제공
한계점:
제안된 패치의 일반성 및 다양한 LLM에 대한 적용 가능성 추가 검증 필요
어텐션 싱크 현상의 근본적인 원인에 대한 추가 연구 필요
다른 유형의 LLM 오류 모드에 대한 적용 가능성 검토 필요
👍