Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

The Impossibility of Inverse Permutation Learning in Transformer Models

Created by
  • Haebom
Category
Empty

저자

Rohan Alur, Chris Hays, Manish Raghavan, Devavrat Shah

개요

본 기술 노트는 디코더 전용 트랜스포머에서 역 순열 학습 문제를 연구합니다. 순열과 해당 순열이 적용된 문자열이 주어졌을 때, 모델은 원래 (``정규'') 문자열을 생성해야 합니다. 이 작업은 장기 컨텍스트 검색, 객관식 질문 및 문맥 내 학습을 포함한 다양한 추론 작업 전반에 걸쳐 자연스러운 견고성 속성을 모델링한다고 주장합니다. 주요 기여는 불가능성 결과입니다. 즉, 임의 깊이의 디코더 전용 트랜스포머는 이 작업을 학습할 수 없음을 보여줍니다. 이 결과는 디코더 전용 트랜스포머 모델의 표현 능력에 관한 것이며, 학습 역학이나 샘플 복잡성에 관계없이 적용됩니다. 역 순열 학습이 가능한 두 가지 대체 구성을 제공합니다. 첫 번째는 인과적 주의 마스크의 근본적인 역할을 강조하고, 인코더-디코더 트랜스포머와 더 널리 사용되는 디코더 전용 아키텍처의 표현 능력 간의 격차를 보여줍니다. 후자의 결과는 더욱 놀랍습니다. 입력에 "스크래치 토큰"으로 패딩하는 것만으로도 역 순열 학습이 가능한 구성을 얻을 수 있음을 보여줍니다. 이는 사고의 연쇄 프롬프트 또는 더 일반적으로 중간 "사고" 토큰이 이러한 토큰이 의미 있는 의미 정보를 인코딩하지 않더라도(예: 중간 계산 결과) 대형 언어 모델에서 추론을 가능하게 하는 대체 메커니즘을 시사할 수 있다고 추측합니다.

시사점, 한계점

디코더 전용 트랜스포머는 역 순열 학습을 수행할 수 없음
인코더-디코더 트랜스포머는 역 순열 학습 가능
입력에 "스크래치 토큰"을 추가하면 역 순열 학습 가능
이 연구 결과는 디코더 전용 모델의 표현 능력에 대한 한계를 보여줌
"스크래치 토큰" 사용은 사고의 연쇄 프롬프트와 연관될 수 있음
👍