Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Language Models, Graph Searching, and Supervision Adulteration: When More Supervision is Less and How to Make More More

Created by
  • Haebom
Category
Empty

저자

Arvid Frydenlund

개요

본 논문은 별 모양 그래프에서 목표 노드를 찾는 '경로-별 과제'를 다룬다. 언어 모델(LM)은 시작 노드와 목표 노드를 포함한 그래프를 입력받아 목표 노드가 위치한 가지를 생성하는 과제를 수행한다. 단순한 과제임에도 불구하고, 디코더 전용 LM은 과도한 감독 학습으로 인해 단순히 확률적으로 가지를 선택하는 지름길을 학습하여 $1/D$ 이상의 성공률을 달성하지 못한다. 논문에서는 이러한 문제점의 원인을 분석하고, 디코더 전용 LM으로 과제를 해결할 수 있는 여러 해결책을 제시한다. 과제의 단순성으로 인해 과제 분해가 어렵다는 점이 어려움의 원인임을 밝히고, 제시된 해결책은 다음 토큰 예측을 통해 학습된 LM의 병리 현상과 그 의미에 대한 통찰력을 제공한다.

시사점, 한계점

시사점: 과도한 감독 학습이 언어 모델의 성능 저하를 야기할 수 있음을 보여줌. 단순한 과제에서도 LM의 예상치 못한 실패 원인을 규명하고 해결책을 제시함으로써 LM 학습 및 설계에 대한 통찰력 제공. 다음 토큰 예측 방식의 한계점을 드러냄.
한계점: 제시된 해결책들이 특정 과제에 국한될 가능성 존재. 더욱 복잡한 그래프 탐색 과제에 대한 일반화 가능성은 추가 연구 필요. 해결책의 효율성 및 일반적인 LM 아키텍처에 대한 적용 가능성에 대한 추가적인 실험 및 분석 필요.
👍