[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Change of Thought: Adaptive Test-Time Computation

Created by
  • Haebom

저자

Mrinal Mathur, Mike Doan, Barak Pearlmutter, Sergey Plis

개요

본 논문은 고정된 깊이로 평가되는 Transformer가 TC0 회로 클래스의 표현력으로 제한된다는 점을 증명하고, 이러한 한계를 극복하기 위해 자기 반복적인(autoregressive) 방식이 아닌, 인코더 Transformer의 표현력을 향상시키는 새로운 방법을 제시합니다. 기존의 자기 반복적인 방법(next-token prediction, chain-of-thought reasoning)은 중간 상태를 토큰으로 디코딩하고 다시 인코딩하는 피드백 루프에 의존하는 반면, 본 논문에서 제안하는 SELF-Transformer는 인코더 계층 내에서 어텐션 가중치를 고정점으로 반복적으로 개선하여 입력 어려움에 따라 테스트 시간 계산을 조절합니다. 이는 단일 패스에서 입력 시퀀스를 혼합하는 정렬 행렬을 생성하는 대신, 내부적으로 해당 행렬을 반복적으로 업데이트하는 방식입니다. 결과적으로 파라미터 수를 늘리지 않고 인코더 스타일 벤치마크에서 최대 20%의 정확도 향상을 달성하며, 테스트 시간에 입력 적응형 정렬이 적은 추가 연산 비용으로 상당한 이점을 제공함을 보여줍니다. 따라서 SELF-Transformer는 순수 인코더 아키텍처의 단순성을 유지하면서 반복적인 추론의 표현력을 상당 부분 회복합니다.

시사점, 한계점

시사점:
고정된 깊이의 Transformer의 표현력 한계를 극복하는 새로운 방법 제시.
자기 반복적인 방식 없이 인코더 Transformer의 표현력 향상.
테스트 시간에 입력 적응형 정렬을 통해 정확도 향상 및 연산 효율성 증대.
파라미터 수 증가 없이 성능 향상 달성.
순수 인코더 아키텍처의 단순성 유지하면서 반복 추론의 장점 확보.
한계점:
SELF-Transformer의 효과가 모든 종류의 인코더 벤치마크에서 동일하게 나타나는지 추가적인 실험이 필요.
입력 어려움에 따른 테스트 시간 계산량 증가에 대한 정량적인 분석 및 최적화 방안 연구 필요.
다른 종류의 아키텍처나 작업에 대한 일반화 가능성에 대한 추가적인 연구 필요.
👍