Beyond Transfer Accuracy: Faithful Circuits for Controlled Low-Resource Adaptation

Author

Haebom

저자

Khumaisa Nur'aini, Ayu Purwarianti, Alham Fikri Aji, Derry Wijaya

💡 개요

본 연구는 기존의 정형화된 데이터셋에서만 가능했던 인과 회로(circuit) 발견 방식을 자연어 텍스트에 적용할 수 있는 새로운 방법론을 제안합니다. 제안된 방식은 레이블 균형 활성화 평균과 작업 방향 관련성 점수를 활용하여 반사실적 증거 없이도 인과 회로를 발견할 수 있으며, 이를 통해 낮은 자원으로도 모델을 효과적으로 적응시키는 Circuit-Targeted Supervised Fine-Tuning (CT-SFT) 기법을 개발했습니다. NusaX 및 XNLI 데이터셋 실험 결과, CT-SFT는 낮은 자원으로도 높은 성능을 달성할 뿐만 아니라, 치명적인 망각(catastrophic forgetting)을 최소화하여 원래 언어 및 관련 작업에서의 성능을 보존하는 강점을 보였습니다.

🔑 시사점 및 한계

•

낮은 자원으로의 효율적인 모델 적응: CT-SFT는 최소한의 파라미터만 업데이트함으로써 적은 데이터로도 모델을 특정 작업에 효과적으로 적응시킬 수 있어, 저자원 환경에서의 모델 활용성을 크게 높입니다.

•

치명적 망각 최소화: 전역적인 파인튜닝과 달리, CT-SFT는 인과적으로 중요한 부분만 수정하기 때문에 기존 지식을 보존하여 치명적인 망각 현상을 줄이고, 원본 언어 및 관련 작업 성능을 유지하는 데 유리합니다.

•

모델의 인과적 이해 기반 적응: 인과 회로를 기반으로 파라미터를 수정함으로써, 모델 적응 과정에 대한 더 깊은 이해를 제공하며, 이는 향후 모델 해석 및 제어 가능성 향상에 기여할 수 있습니다.

•

계산 복잡성 및 일반화: 제안된 회로 발견 방법론의 계산 복잡성과 다양한 유형의 모델 및 작업에 대한 일반화 성능을 추가적으로 검증할 필요가 있습니다.

PDF 보기

Made with Slashpage