본 논문은 다국어 대규모 언어 모델(MLLM)의 기억 현상에 대한 최초의 포괄적인 연구를 제시합니다. 95개 언어를 대상으로 다양한 모델 규모, 아키텍처 및 기억 정의를 사용하여 분석하였습니다. MLLM의 배포가 증가함에 따라, 그 기억 행동을 이해하는 것이 중요해졌습니다. 그러나 이전 연구는 주로 일개 언어 모델에 집중하여, 훈련 말뭉치의 본질적으로 긴 꼬리 분포에도 불구하고 다국어 기억에 대한 탐구는 부족했습니다. 본 연구는 기억이 훈련 데이터 가용성과 높은 상관관계가 있다는 기존의 가정이 MLLM의 기억 패턴을 완전히 설명하지 못한다는 것을 발견했습니다. 언어 간 유사성을 무시하고 언어를 개별적으로 다루면 기억의 실제 패턴이 불분명해진다는 가설을 세웠습니다. 이를 해결하기 위해, 언어 유사성을 통합하여 교차 언어 기억을 분석하는 새로운 그래프 기반 상관 측정법을 제안합니다. 분석 결과, 유사한 언어 중에서 훈련 토큰이 적은 언어가 더 높은 기억률을 보이는 경향이 있으며, 이러한 경향은 교차 언어 관계를 명시적으로 모델링할 때만 나타납니다. 이러한 발견은 MLLM의 기억 취약성을 평가하고 완화할 때 언어 인식 관점의 중요성을 강조합니다. 또한, 언어 유사성이 MLLM의 기억을 설명하고 교차 언어 전이성을 뒷받침한다는 경험적 증거를 제시하며, 다국어 NLP에 대한 광범위한 영향을 미칩니다.