Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

Characterizing Pattern Matching and Its Limits on Compositional Task Structures

Created by
  • Haebom
Category
Empty

저자

Hoyeon Chang, Jinho Park, Hanseul Cho, Sohee Yang, Miyoung Ko, Hyeonbin Hwang, Seungpil Won, Dohaeng Lee, Youbin Ahn, Minjoon Seo

개요

LLM의 성공은 패턴 매칭에 의존하지만, 이는 OOD 일반화 실패로 이어진다. 본 논문은 패턴 매칭을 기능적 등가성으로 공식화하고, 이를 통해 디코더 기반 Transformer 및 Mamba 모델의 성능을 연구한다. 연구 결과는 패턴 매칭의 성공이 관련 기능적 등가성을 목격하는 컨텍스트 수에 의해 예측될 수 있으며, 2-홉 구조 학습의 샘플 복잡성 경계를 제시한다. 또한, 경로 모호성이 모델의 성능을 저해하며, Chain-of-Thought는 데이터 요구 사항을 줄이지만 경로 모호성 문제를 해결하지 못함을 밝힌다.

시사점, 한계점

패턴 매칭 성공은 기능적 등가성을 목격하는 컨텍스트 수에 의해 예측 가능.
2-홉 구조 학습의 샘플 복잡성 경계 제시.
경로 모호성은 모델 성능 저해 요인.
Chain-of-Thought는 데이터 요구 사항을 줄이지만 경로 모호성 문제를 해결하지 못함.
연구는 패턴 매칭의 한계를 규명하고, 다양한 일반화 메커니즘을 분리하는 진단 도구를 제공함.
👍