Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction

Created by
  • Haebom

저자

Vaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan

개요

본 논문은 현존하는 언어 모델의 창의적 한계를 정량적으로 측정하기 위해, 실제 세계의 개방적인 과제들을 추상화한 최소한의 알고리즘 과제들을 설계합니다. 이 과제들은 추상적 지식 그래프에서 새로운 연결을 발견하거나 (예: 말장난, 유추, 연구) 새로운 패턴을 구성하는 (예: 수학 문제나 새로운 단백질 설계) 암묵적이고 개방적인 확률적 계획 단계를 필요로 합니다. 실험적으로 다음 토큰 학습의 근시안적인 면을 논증하고, 교사 없는 학습과 확산 모델과 같은 다중 토큰 접근 방식이 다양하고 독창적인 결과물을 생성하는 데 우수함을 보여줍니다. 또한, 일관성을 해치지 않고 무작위성을 유도하기 위해 입력 계층에 노이즈를 주입하는 방법(Seed-conditioning)이 출력 계층의 온도 샘플링만큼 효과적이며, 어떤 조건에서는 더 나은 결과를 보임을 발견했습니다. 결론적으로, 본 논문은 개방적인 창의적 기술을 분석하기 위한 원칙적이고 최소한의 테스트 환경을 제공하고, 다음 토큰 학습과 온도 샘플링을 넘어서는 새로운 논거를 제시합니다. 일부 코드는 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
현존 언어 모델의 창의적 한계를 측정하기 위한 새로운 알고리즘 과제들을 제시.
다음 토큰 학습의 한계를 보여주고, 다중 토큰 접근 방식의 우수성을 입증.
입력 계층 노이즈 주입(Seed-conditioning)이 무작위성과 일관성을 동시에 확보하는 효과적인 방법임을 제시.
개방적인 창의적 기술 분석을 위한 원칙적이고 최소한의 테스트 환경 제공.
한계점:
제시된 알고리즘 과제가 실제 세계의 복잡한 창의적 과제를 완벽히 반영하지 못할 수 있음.
공개된 코드가 부분적임.
다양한 언어 모델과 과제에 대한 일반화 가능성에 대한 추가 연구 필요.
👍