Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond Memorization: Assessing Semantic Generalization in Large Language Models Using Phrasal Constructions

Created by
  • Haebom

저자

Wesley Scivetti, Melissa Torgbi, Austin Blodgett, Mollie Shichman, Taylor Hudson, Claire Bonial, Harish Tayyar Madabushi

개요

본 논문은 대규모 사전 학습 데이터의 사용으로 인해 발생하는 평가의 어려움, 즉 사전 학습 데이터에 잘 나타나는 경우의 언어 능력과 사전 학습 데이터에 덜 흔한 동적인 실세계 인스턴스에 대한 일반화를 구분하는 문제를 해결하기 위해 Construction Grammar (CxG)를 활용한 진단 평가를 제시합니다. CxG는 구문 형태를 추상적이고 비 어휘적인 의미와 명시적으로 연결하여 일반화를 테스트하기 위한 심리언어학적으로 근거한 프레임워크를 제공합니다. 연구진은 영어 구절 구조를 사용하여 새로운 추론 평가 데이터 세트를 구성했으며, 이는 화자가 일반적인 예시를 추상화하여 창의적인 예시를 이해하고 생성할 수 있다는 점을 활용합니다. 이 데이터 세트는 두 가지 중심 질문, 즉 모델이 사전 학습 데이터에 덜 자주 나타나지만 사람이 이해하기 쉽고 직관적인 문장의 의미를 '이해'할 수 있는지, 그리고 구문적으로 동일하지만 의미가 다른 구조가 주어졌을 때 적절한 구조적 의미를 사용할 수 있는지 평가합니다. GPT-o1을 포함한 최첨단 모델이 두 번째 과제에서 40% 이상의 성능 저하를 보이는 것을 통해, 인간처럼 구문적으로 동일한 형태를 일반화하여 구별되는 구조적 의미에 도달하는 데 실패함을 보여줍니다. 새로운 데이터 세트와 관련 실험 데이터(프롬프트 및 모델 응답 포함)를 공개적으로 제공합니다.

시사점, 한계점

시사점:
대규모 언어 모델(LLM)의 일반화 능력에 대한 심층적인 이해를 제공합니다.
Construction Grammar(CxG)를 활용한 새로운 평가 프레임워크를 제시합니다.
LLM의 한계를 명확히 보여주는 새로운 데이터셋을 공개적으로 제공합니다.
사전 학습 데이터의 편향성이 LLM의 성능에 미치는 영향을 분석하는 데 기여합니다.
한계점:
평가 데이터셋이 영어 구절 구조에만 집중되어 있어 다른 언어나 구조에 대한 일반화 가능성이 제한적일 수 있습니다.
CxG 프레임워크에 대한 의존도가 높아 다른 이론적 관점에서는 해석이 달라질 수 있습니다.
평가 대상 모델이 제한적일 수 있습니다. 더 다양한 모델에 대한 추가 실험이 필요합니다.
👍