Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

Created by
  • Haebom

저자

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, Andre Freitas

개요

본 논문은 대규모 언어 모델(LLM)의 추론 제한, 특히 내용의 타당성(물질적 추론)과 논리적 타당성(형식적 추론)의 혼동 문제를 다룹니다. 이러한 혼동은 편향된 추론으로 이어져, 타당한 주장이 논리적으로 유효하다고 잘못 판단되거나 그 반대의 경우가 발생할 수 있습니다. 논문에서는 활성화 조향(activation steering)을 통해 형식적 추론에서 내용 편향을 완화하는 방법을 조사합니다. 형식적 추론과 물질적 추론에 책임이 있는 계층을 찾아낸 후, 대조적 활성화 조향 기법을 테스트 시간 중재에 적용합니다. 다양한 LLM에 대한 실험 결과, 대조적 조향이 내용 편향에 대한 선형 제어를 일관되게 지원하지만, 정적 접근 방식만으로는 모든 모델을 개선하기에 충분하지 않음을 보여줍니다. 따라서 미세 조정된 조건부 방법을 통해 조향 매개변수 값을 동적으로 결정하는 방식을 활용하여, 새롭게 도입된 kNN 기반 방법(K-CAST)을 통해 최대 15%의 형식적 추론 정확도 향상을 달성합니다. 추가 실험을 통해 내용 효과에 대한 조향이 프롬프트 변화에 강인하고, 언어 모델링 기능에 대한 부작용이 최소화되며, 분포 외 추론 작업에 부분적으로 일반화될 수 있음을 보여줍니다.

시사점, 한계점

시사점:
활성화 수준 중재가 LLM의 강건성을 향상시키는 확장 가능한 전략이 될 수 있음을 보여줍니다.
대조적 활성화 조향을 통해 내용 편향에 대한 선형 제어가 가능함을 실험적으로 증명합니다.
조건부 조향 기법(K-CAST)을 통해 일부 LLM에서 형식적 추론 정확도를 상당히 향상시킬 수 있음을 보여줍니다.
조향 기법이 프롬프트 변화에 강인하고, 부작용이 적으며, 부분적으로 분포 외 추론 작업에도 일반화될 수 있음을 확인합니다.
한계점:
정적 접근 방식의 활성화 조향은 모든 LLM에 효과적이지 않을 수 있습니다.
조건부 조향 기법의 효과는 특정 LLM과 데이터셋에 의존적일 수 있습니다.
분포 외 추론 작업에 대한 일반화 성능은 제한적일 수 있습니다.
👍