Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TreeGPT: Pure TreeFFN Encoder-Decoder Architecture for Structured Reasoning Without Attention Mechanisms

Created by
  • Haebom

저자

Zixi Li

개요

TreeGPT는 순수 TreeFFN 인코더-디코더 설계를 사용하여 구조적 추론 작업의 잠재력을 탐구하는 어텐션 메커니즘이 없는 신경망 아키텍처입니다. 기존의 어텐션 메커니즘에 의존하는 트랜스포머 방식과 달리, TreeGPT는 이웃 연결을 통해 병렬적으로 시퀀스를 처리하는 양방향 TreeFFN 구성 요소를 사용하여 계산 효율성을 유지하면서 추론 기능을 달성하는 것을 목표로 합니다. 왼쪽에서 오른쪽 의존성을 처리하는 인코더와 오른쪽에서 왼쪽 패턴을 처리하는 디코더 모두 간단한 이웃 간 연결을 사용하는 TreeFFN 인코더-디코더 메커니즘을 중심으로 합니다. ARC Prize 2025 데이터셋에서 316만 개의 매개변수를 사용하여 99%의 검증 정확도를 달성했습니다. 모델은 1500번의 학습 단계 내에 수렴하며 선택된 평가 샘플에서 100% 토큰 수준 정확도를 보여줍니다.

시사점, 한계점

시사점: 특정 구조적 추론 작업의 경우 어텐션 기반 방식보다 특수화된 TreeFFN 아키텍처가 유리할 수 있음을 시사합니다. 높은 정확도(99% 검증 정확도, 100% 토큰 수준 정확도)와 빠른 수렴 속도(1500 학습 단계)를 달성했습니다.
한계점: 다양한 작업과 데이터셋에 대한 추가 연구를 통해 어텐션이 없는 설계의 광범위한 적용 가능성을 확인해야 합니다. 현재 결과는 특정 데이터셋에 대한 제한적인 결과이며 일반화 가능성에 대한 추가 검증이 필요합니다.
👍