Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs

Created by
  • Haebom

저자

Itay Itzhak, Yonatan Belinkov, Gabriel Stanovsky

개요

본 논문은 대규모 언어 모델(LLM)의 인지적 편향(인간과 유사한 비합리적 의사결정의 체계적 경향)이 사전 학습, 미세 조정, 또는 훈련의 확률적 요소로 인한 무작위 노이즈 중 어디에서 기인하는지 규명하기 위해 이원적 인과 실험 접근 방식을 제안합니다. 먼저, 여러 개의 랜덤 시드를 사용하여 모델을 여러 번 미세 조정하여 훈련의 무작위성이 30가지 이상의 인지적 편향에 미치는 영향을 연구하고, 둘째로는 모델 간에 지시 데이터셋을 교환하는 '교차 미세 조정(cross-tuning)' 기법을 도입하여 편향의 원천을 분리합니다. 실험 결과, 훈련의 무작위성이 일부 변동성을 유발하지만, 편향은 주로 사전 학습에 의해 형성되며, 동일한 사전 학습 백본을 가진 모델은 미세 조정 데이터만 공유하는 모델보다 더 유사한 편향 패턴을 보이는 것을 밝힙니다. 따라서 미세 조정된 모델의 편향을 이해하려면 미세 조정 효과를 넘어 사전 학습의 기원을 고려해야 함을 시사합니다.

시사점, 한계점

시사점:
LLM의 인지적 편향은 주로 사전 학습 과정에 의해 결정된다는 것을 밝힘.
미세 조정된 모델의 편향을 평가하고 완화하기 위한 전략을 개발하는 데 사전 학습의 중요성을 강조.
훈련의 무작위성이 편향에 미치는 영향은 상대적으로 작다는 것을 제시.
교차 미세 조정 기법을 통해 사전 학습과 미세 조정의 영향을 분리하여 분석하는 새로운 접근 방식 제시.
한계점:
연구에 사용된 인지적 편향의 종류와 수가 제한적일 수 있음.
다양한 LLM 아키텍처와 사전 학습 데이터에 대한 일반화 가능성이 제한적일 수 있음.
'교차 미세 조정' 기법의 적용 가능성과 한계에 대한 추가적인 연구가 필요할 수 있음.
👍