본 논문은 대규모 언어 모델(LLM) 및 다중 모달 LLM(MLLM)의 효율성 향상을 위한 연구 방향의 전환을 주장합니다. 기존에는 모델 크기 증가를 통한 성능 향상에 초점을 맞췄으나, 하드웨어 한계에 직면하면서 계산 병목 현상이 긴 토큰 시퀀스에 대한 자기 주의의 이차적 비용으로 이동했습니다. 따라서 본 논문은 모델 중심의 압축에서 데이터 중심의 압축, 특히 토큰 압축으로 연구 초점을 전환해야 한다고 주장합니다. 다양한 분야의 장문맥 AI 연구 발전을 분석하고, 기존 모델 효율성 전략에 대한 통합 수학적 프레임워크를 제시하여 토큰 압축의 중요성을 강조합니다. 또한 토큰 압축 연구의 현황을 체계적으로 검토하고, 그 이점과 다양한 시나리오에서의 장점을 분석하며, 현재의 과제와 미래 연구 방향을 제시합니다. 궁극적으로 AI 효율성에 대한 새로운 관점을 제공하고, 기존 연구를 종합하여 장문맥 길이 증가로 인한 과제 해결을 위한 혁신적인 개발을 촉진하는 것을 목표로 합니다.
시사점, 한계점
•
시사점:
◦
모델 중심의 압축에서 데이터 중심의 압축, 특히 토큰 압축으로의 패러다임 전환 필요성을 제시합니다.
◦
장문맥 AI의 효율성 향상을 위한 새로운 연구 방향을 제시하고, 기존 연구를 통합하는 프레임워크를 제공합니다.
◦
토큰 압축의 이점과 다양한 시나리오에서의 적용 가능성을 보여줍니다.
◦
토큰 압축 연구의 미래 방향을 제시하여 관련 연구를 활성화할 수 있습니다.
•
한계점:
◦
본 논문은 위치 논문(position paper)으로, 실험적 결과나 구체적인 알고리즘 제안은 포함하지 않습니다.
◦
토큰 압축의 구체적인 방법론이나 기술적 세부 사항에 대한 자세한 설명이 부족할 수 있습니다.