Sign In

Sequential Enumeration in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Kuinan Hou, Marco Zorzi, Alberto Testolin

개요

LLMs을 포함한 신경망에서 항목 시퀀스를 안정적으로 계산하고 생성하는 것은 여전히 어려운 과제이다. 본 논문에서는 다섯 개의 최첨단 LLM의 순차적 열거 능력을 조사하여 이 문제를 해결하고자 한다. 특히, 글자 및 단어 목록을 포함하는 순차적 명명 및 생성 작업을 통해 LLM을 테스트하고, 체인 오브 씽킹이 계산 전략의 출현에 미치는 영향을 탐구하며, 스케일링 법칙을 따르는지 확인하기 위해 다양한 크기의 모델을 평가하고, 수치성을 인코딩하는 임베딩 역학을 분석한다. 그 결과, 일부 LLM은 명시적으로 지시받으면 계산 절차를 사용할 수 있지만, 항목 수를 세도록 단순히 요청받았을 때는 자발적으로 계산을 수행하지 못하는 것으로 나타났다.

시사점, 한계점

LLM은 명시적인 지시 없이는 순차적 계산을 수행하지 못한다.
LLM의 계산 능력은 아직 체계적이지 않고, 신경망과 기호적 접근 방식 간의 차이점을 보여준다.
체인 오브 씽킹 프롬프트를 통해 계산 전략 유도 가능성을 확인했다.
모델 크기 증가가 계산 능력 향상으로 이어지는지에 대한 추가 연구 필요.
임베딩 역학 분석을 통해 수치성의 인코딩 방식을 파악할 수 있음.
👍