본 논문은 점진적 국소화(progressive localization)가 성능을 유지하면서 해석 가능한 대규모 언어 모델을 생성하는 데 최적의 아키텍처임을 입증한다. '인공 슈퍼지능의 심리학'에 대해 미세 조정된 GPT-2를 사용한 체계적인 실험을 통해, 완전 분산형에서 완전 국소형에 이르는 7가지 국소화 구성과 5가지 점진적 스케줄(선형에서 5차 다항식)을 평가했다.
시사점, 한계점
•
점진적 국소화는 AI 안전 애플리케이션에 중요하며, 특히 안전에 중요한 결정을 내리는 출력 레이어에서 해석 가능한 어텐션 패턴을 제공한다.
•
5차 점진적 스케줄은 완전 분산형 기준선보다 1.89배 낮은 성능 저하를 보이면서, 이전 국소형 구현보다 84.2% 향상된 결과를 얻었다.
•
국소화 스케줄의 기울기와 성능 간의 체계적인 관계는 초기 레이어가 특징 추출을 위해 분산 처리를 필요로 하고 후기 레이어가 의사 결정을 위해 국소적이고 해석 가능한 어텐션으로부터 이점을 얻는다는 가설을 검증한다.
•
점진적 국소화는 모델 추론에 대한 인간의 감독이 필수적인 안전 관련 영역에서 투명한 AI 시스템을 구축하는 데 원칙적인 접근 방식이 된다.