Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Rep2Text: Decoding Full Text from a Single LLM Token Representation

Created by
  • Haebom
Category
Empty

저자

Haiyan Zhao, Zirui He, Fan Yang, Ali Payani, Mengnan Du

개요

본 연구는 대규모 언어 모델(LLM)의 내부 메커니즘을 탐구하여, LLM의 마지막 토큰 표현만으로 원본 입력 텍스트를 얼마나 복원할 수 있는지 연구한다. Rep2Text라는 새로운 프레임워크를 제안하여, 마지막 토큰 표현을 디코딩 언어 모델의 임베딩 공간으로 투영하고, 이를 통해 입력 텍스트를 자동 회귀적으로 재구성한다. Llama-3.1-8B, Gemma-7B, Mistral-7B-v0.1, Llama-3.2-3B 등 다양한 모델 조합에 대한 실험 결과, 16토큰 시퀀스에서 평균적으로 절반 이상의 정보를 압축된 표현에서 복원할 수 있으며, 의미적 완전성과 일관성을 유지함을 확인했다. 또한, 긴 시퀀스에서는 토큰 수준 복구율이 감소하지만, 의미적 완전성은 유지되는 정보 병목 현상을 발견했다. Rep2Text는 분포 밖의 의료 데이터에 대해서도 견고한 일반화 성능을 보였다.

시사점, 한계점

LLM의 마지막 토큰 표현에서 상당량의 원본 텍스트를 복원할 수 있는 새로운 프레임워크 제시 (Rep2Text).
다양한 LLM 조합에 대한 실험을 통해 Rep2Text의 성능 검증.
긴 시퀀스에서 정보 병목 현상 발견.
분포 밖 데이터에 대한 견고한 일반화 성능 확인.
해당 연구는 16-토큰 시퀀스에 초점을 맞추었으며, 더 긴 시퀀스에 대한 성능 개선의 여지가 있음.
Rep2Text의 복원 성능은 모델 조합에 따라 차이가 있을 수 있음.
👍