Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction

Created by
  • Haebom

저자

Vaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan

개요

본 논문은 현존하는 언어 모델의 창의적인 한계를 정량적으로 측정하기 위해, 실제 세계의 개방적인 과제들을 추상화한 최소한의 알고리즘 과제들을 설계합니다. 이 과제들은 추상적인 지식 그래프에서 새로운 연결을 발견하거나(예: 말장난, 유추, 연구) 새로운 패턴을 구성하는(예: 수학 문제나 새로운 단백질 설계) 암묵적이고 개방적인 확률적 계획 단계를 필요로 합니다. 실험적으로 그리고 개념적으로 다음 토큰 학습(next-token learning)의 근시안적인 면을 논하며, 교사 없는 학습(teacherless training)과 확산 모델과 같은 다중 토큰 접근 방식이 다양하고 독창적인 결과물을 생성하는 데 더 뛰어나다는 주장을 펼칩니다. 또한, 일관성을 해치지 않고 무작위성을 유도하기 위해 입력 계층에 노이즈를 주입하는 방법(seed-conditioning)이 출력 계층의 온도 샘플링만큼 효과적이며, 어떤 조건에서는 더 뛰어나다는 것을 발견합니다. 결론적으로, 본 연구는 개방적인 창의적 능력을 분석하기 위한 원칙적이고 최소한의 테스트 환경을 제공하며, 다음 토큰 학습과 온도 샘플링을 넘어서는 새로운 논거를 제시합니다.

시사점, 한계점

시사점:
개방형 창의적 능력을 평가하기 위한 새로운 알고리즘 과제 집합을 제시합니다.
다음 토큰 학습의 한계를 보여주고, 다중 토큰 접근 방식의 우수성을 입증합니다.
입력 계층 노이즈 주입(seed-conditioning)이 무작위성과 일관성을 동시에 확보하는 효과적인 방법임을 제시합니다.
언어 모델의 창의성 연구에 대한 새로운 관점과 방향을 제시합니다.
한계점:
제시된 알고리즘 과제가 실제 세계의 복잡한 창의적 과제를 완벽하게 반영하지 못할 수 있습니다.
사용된 데이터셋 및 모델의 한계로 인해 일반화 가능성에 대한 추가적인 검증이 필요합니다.
코드의 일부만 공개되어 접근성에 제한이 있을 수 있습니다.
👍