Sign In

Compositional Reasoning with Transformers, RNNs, and Chain of Thought

Created by
  • Haebom
Category
Empty

저자

Gilad Yehudai, Noah Amsel, Joan Bruna

개요

본 논문은 구성적 추론 질문(CRQ)이라는 간단하고 자연스러운 문제 유형을 통해 Transformer, RNN, 그리고 사고 과정 토큰을 사용하는 Transformer의 표현력을 연구하고 비교합니다. CRQ는 부울 공식 평가 및 다단계 워드 문제와 같은 문제를 포함합니다. 회로 복잡도 및 통신 복잡도의 표준 어려움 가정을 바탕으로, 세 가지 아키텍처 모두 입력 크기와 함께 일부 하이퍼파라미터(각각 깊이, 임베딩 차원, 사고 과정 토큰 수)가 증가하지 않는 한 CRQ를 해결할 수 없음을 증명합니다. 또한 각 아키텍처에 대한 CRQ를 해결하는 구성을 제공합니다. Transformer의 경우, 문제 크기에 대해 로그 함수적인 깊이를 사용하는 구성을 사용합니다. RNN의 경우, 입력이 특정 순서로 제공되는 한 로그 함수적인 임베딩 차원이 필요충분 조건입니다 (그렇지 않으면 선형 차원이 필요). 사고 과정을 사용하는 Transformer의 경우, $n$개의 CoT 토큰을 사용하는 구성을 사용합니다. 이러한 결과는 CRQ가 본질적으로 어렵지만, 언어 모델이 이 어려움을 극복할 수 있는 여러 가지 방법이 있음을 보여줍니다. 단일 문제 유형에서도 각 아키텍처는 강점과 약점을 가지며, 어느 것도 다른 것보다 엄격하게 우수하지 않습니다.

시사점, 한계점

시사점:
Transformer, RNN, 사고 과정 토큰 기반 Transformer의 표현력을 CRQ 문제를 통해 비교 분석함으로써 각 아키텍처의 강점과 약점을 명확히 제시.
각 아키텍처가 CRQ를 해결하기 위한 최소한의 하이퍼파라미터 크기를 제시하고, 이를 통해 효율적인 모델 설계에 대한 통찰력 제공.
CRQ와 같은 복잡한 문제 해결을 위해 다양한 아키텍처의 특성을 고려해야 함을 시사.
한계점:
CRQ라는 특정 유형의 문제에 국한된 연구 결과이므로, 다른 유형의 문제에 대한 일반화 가능성은 제한적일 수 있음.
실제 언어 모델의 복잡성을 완전히 반영하지 못할 수 있음. (예: attention mechanism의 구체적인 설계, activation function 등)
RNN의 경우 입력 순서에 따라 필요한 임베딩 차원이 달라지는 점은 실제 응용에 제약이 될 수 있음.
👍