본 논문은 대규모 언어 모델(LLM)을 데이터 적합 및 예측 생성에 사용하는 것의 취약성을 다룹니다. LLM은 다양한 작업에서 경쟁력 있는 예측 성능을 보여주지만, 작업과 무관한 데이터 표현의 변화(예: 변수 이름 변경)에 예측 결과가 크게 좌우되는 취약성을 가지고 있음을 밝힙니다. 이는 in-context learning과 supervised fine-tuning 모두에서, close-weight 및 open-weight LLM 모두에서 나타나는 현상이며, open-weight LLM의 어텐션 메커니즘 분석을 통해 특정 위치의 토큰에 과도한 집중이 발생하는 것을 확인했습니다. 데이터 적합을 위해 특별히 훈련된 TabPFN과 같은 최첨단 모델조차도 이러한 취약성에서 자유롭지 못합니다. 따라서 현재의 LLM은 원칙적인 데이터 적합 도구로 사용하기에는 기본적인 수준의 강건성조차 부족합니다.