Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Efficient Decoding Methods for Language Models on Encrypted Data

Created by
  • Haebom
Category
Empty

저자

Matan Avitan, Moran Baruch, Nir Drucker, Itamar Zimerman, Yoav Goldberg

개요

대규모 언어 모델(LLM)은 현대 AI 응용 분야에 사용되지만, 신뢰할 수 없는 서버에서 민감한 데이터를 처리하는 것은 개인 정보 보호 문제를 야기합니다. 동형 암호화(HE)는 암호화된 데이터에 대한 연산을 가능하게 하여 안전한 추론을 지원합니다. 그러나 신경 텍스트 생성에는 argmax 및 sampling과 같은 디코딩 방법이 필요하며, 이는 비다항식이므로 암호화 환경에서 계산 비용이 많이 들고 성능 병목 현상을 만듭니다. 본 논문에서는 HE 친화적인 argmax 알고리즘인 cutmax를 도입하여 이전 방법보다 암호문 연산을 줄여 암호화 환경에서 실용적인 greedy decoding을 가능하게 합니다. 또한, cutmax를 활용하여 효율적인 확률적 디코딩을 수행하는 최초의 HE 호환 nucleus (top-p) sampling 방법을 제안하며, 이는 입증된 개인 정보 보호 보장을 제공합니다. 두 기법 모두 다항식이며, 개인 정보 보호 환경에서 효율적인 추론을 지원합니다. 또한, 이들의 미분 가능성은 straight-through estimator의 다항식 대안으로, 기울기 기반 시퀀스 레벨 최적화를 용이하게 합니다. Cutmax에 대한 강력한 이론적 보장을 제공하며, 최대 요소와 두 번째로 큰 요소 간의 갭 비율의 지수 증폭을 통해 수렴을 증명합니다. 실제 LLM 출력에 대한 평가는 기본 설정 대비 24x-35x의 지연 시간 감소를 보여주며, 안전한 텍스트 생성을 발전시킵니다.

시사점, 한계점

시사점:
HE 환경에서 효율적인 텍스트 생성을 위한 새로운 알고리즘(cutmax) 및 sampling 방법 개발.
기존 방법 대비 상당한 지연 시간 감소 (24x-35x).
cutmax의 수렴에 대한 이론적 보장 제공.
미분 가능성을 통해 기울기 기반 최적화 가능성 제시.
한계점:
구체적인 성능 비교 및 구현 세부 사항에 대한 정보 부족.
안전성 및 개인 정보 보호 보장에 대한 구체적인 분석 미제시.
cutmax 및 sampling 방법의 일반화 가능성에 대한 추가 연구 필요.
👍