Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Does learning the right latent variables necessarily improve in-context learning?

Created by
  • Haebom

저자

Sarthak Mittal, Eric Elmoznino, Leo Gagnon, Sangnie Bhardwaj, Tom Marty, Dhanya Sridhar, Guillaume Lajoie

개요

본 논문은 Transformer와 같은 대규모 자기회귀 모델이 새로운 가중치 학습 없이 문맥 내 학습(ICL)을 통해 작업을 해결할 수 있다는 점에 주목합니다. 많은 작업(예: 선형 회귀)에서 데이터는 요인화되는데, 이는 예를 들어 선형 계수와 같이 데이터를 생성하는 작업 잠재 변수가 주어지면 예제가 독립적임을 의미합니다. 최적의 예측 변수는 작업 잠재 변수를 추론하여 이러한 요인화를 활용하지만, Transformer가 이를 암시적으로 수행하는지 또는 대신 어텐션 계층에 의해 가능해진 휴리스틱 및 통계적 지름길을 활용하는지는 불분명합니다. 본 논문은 작업 잠재 변수를 명시적으로 추론하는 효과를 체계적으로 조사합니다. 지름길을 방지하고 보다 구조화된 솔루션을 선호하도록 설계된 병목 현상으로 Transformer 아키텍처를 최소한으로 수정한 후 다양한 ICL 작업에 걸쳐 표준 Transformer와 성능을 비교합니다. 직관과 일부 최근 연구와는 달리, 두 가지 간에 눈에 띄는 차이를 거의 발견하지 못했습니다. 일반적으로 작업 관련 잠재 변수에 대한 편향은 분포 외 성능을 향상시키지 않습니다. 흥미롭게도, 병목 현상이 컨텍스트에서 잠재적인 작업 변수를 효과적으로 추출하는 것을 학습하지만, 다운스트림 처리가 강력한 예측에 이를 활용하는 데 어려움을 겪는다는 것을 발견했습니다.

시사점, 한계점

시사점: Transformer가 일반화되는 구조화된 ICL 솔루션을 달성하는 데 내재적인 한계가 있음을 강조합니다. 올바른 잠재 변수를 추론하는 것이 해석성을 높이는 데 도움이 되지만, 이 문제를 완화하기에 충분하지 않다는 것을 보여줍니다.
한계점: 명시적으로 작업 잠재 변수를 추론하는 것이 분포 외 성능 향상에 큰 영향을 미치지 않는다는 것을 발견했습니다. 병목 현상을 통해 추출된 잠재 변수를 효과적으로 활용하는 다운스트림 처리 메커니즘의 부족이 한계로 지적됩니다.
👍