Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fusion Steering: Prompt-Specific Activation Control

Created by
  • Haebom

저자

Waldemar Chang, Alhassan Yasin

개요

본 논문은 대규모 언어 모델(LLM)의 질의응답(QA) 과제에서 사실 정확도를 향상시키는 새로운 활성화 제어 방법인 Fusion Steering을 제시합니다. Fusion Steering은 전체 계층 제어 및 분할 제어를 포함한 유연한 제어 구성을 도입합니다. 기존의 단일 계층 또는 고정 계층 연산에 제한된 방법과 달리, Fusion Steering은 모든 트랜스포머 계층에 프롬프트별 활성화 델타를 동적으로 주입합니다. 이러한 활성화 델타는 정답과 모델이 생성한 설명을 결합한 참조 완성에서 파생되며, 의미적으로 풍부하고 예시 특정적인 제어를 가능하게 합니다. 주입 가중치는 토큰 중복(사실적 정렬)과 당황도(유창성 근사치)를 균형 있게 고려하는 공동 목표를 사용하여 Optuna를 통해 프롬프트별로 최적화됩니다. 평가는 토큰 중복과 LLM 등급 품질을 통합한 복합 점수를 사용하며, 사실 정확도, 일관성 및 관련성을 포함합니다. 260개의 SimpleQA 프롬프트(기준 모델이 실패한 500개 중 선택)에 대한 실험 결과는 분할 제어의 효과를 보여줍니다. Gemma-2-2B-IT를 8비트 양자화와 함께 사용하여 분할 제어는 25.4%(0.6 이상의 점수를 받은 출력)의 정확도를 달성하여 기준 모델(3.5%) 및 전체 계층 제어(16.2%)를 능가합니다. 더 엄격한 SimpleQA 기준에 따르면, 분할 제어는 완전히 정확한 응답을 0.0%에서 13.1%로 높입니다. 이러한 결과는 분할적이고 동적인 개입 전략의 강점과 프롬프트별 전체 네트워크 활성화 제어의 가능성을 강조합니다. Fusion Steering은 Neuronpedia 또는 sparse crosscoders와 같은 희소 표현에도 적용 가능하며, LLM에서 해석 가능하고 확장 가능한 활성화 수준 제어를 위한 유망한 방향을 제시합니다.

시사점, 한계점

시사점:
LLM의 질의응답 정확도 향상을 위한 새로운 활성화 제어 방법인 Fusion Steering 제시.
유연한 제어 구성(전체 계층 제어, 분할 제어)을 통해 기존 방법의 한계 극복.
프롬프트별 동적 활성화 델타 주입을 통한 의미적으로 풍부하고 예시 특정적인 제어 가능.
분할 제어의 효과를 실험적으로 검증.
희소 표현과의 호환성을 통해 해석 가능하고 확장 가능한 활성화 수준 제어 가능성 제시.
한계점:
제한된 SimpleQA 데이터셋(260개 프롬프트)을 사용하여 평가.
다른 LLM 및 QA 데이터셋으로의 일반화 성능 검증 필요.
Optuna를 사용한 최적화 과정의 계산 비용 문제.
분할 제어의 최적 분할 전략에 대한 추가 연구 필요.
👍