본 논문은 언어 모델(LM)이 학습한 지식 "A is B"로부터 미지의 사실 "B is A"를 추론하지 못하는 문제인 역전 저주가 모델의 내재적 실패가 아닌, 지식을 인코딩하는 방식의 문제임을 밝힙니다. 합성 데이터셋으로 처음부터 언어 모델을 훈련하여 양선형 관계 구조가 숨겨진 표현에서 나타나는 것을 확인했습니다. 이러한 구조는 역전 저주를 완화하고, 일관된 모델 편집을 가능하게 합니다. 즉, 이 구조를 가진 모델에서 사실을 업데이트하면, 편집이 반대 및 논리적으로 종속된 사실로 정확하게 전파됩니다. 반면, 이 표현이 없는 모델은 역전 저주를 겪을 뿐만 아니라 편집을 일반화하는 데 실패하여 논리적 불일치를 초래합니다.