인공지능 모델 범람의 시대에 우리가 한 번 짚고 넘어가야할 SSM
최근 chatGPT 및 Gemini 등을 통해 인공지능에 대한 관심이 무척 뜨겁습니다. 오픈소스와 파인튜닝된 모델까지 하면 과장없이 매주 한 두개의 모델이 나오고 있는 실정입니다. 개인적으로 Prompting에 대해 이야기 하거나 강의를 지진행할 때, 모델에 구애받지 않고 사용가능한 기법들에 대해 이야기 합니다. 지금 주목을 받고 있는 대부분의 모델은 Transformer라는 방식의 모델입니다. GPT도 Generative Pre-trained Transformer 약자 이듯이 말이죠. 하지만, Transformer 방식의 모델이 나온 것은 2018년 즈음이였고 최근에서야 각광을 받고 있습니다. 이유는 간단했습니다. Transformer 모델은 자연어 처리 분야에서 혁신적인 성과를 보여준 모델입니다. 이 모델은 '어텐션 메커니즘(Attention Mechanism)'을 사용하여 문장 내의 단어들 사이의 관계를 효과적으로 학습합니다. 하지만, Transformer는 계산 비용이 높고, 긴 시퀀스 데이터를 처리하는 데 한계가 있기 때문 입니다. 물론, 인간의 기술발전과 각고의 노력으로 어떻게든 상용화 할 수 있을 정도로 최적화도 많이 되었고 경량화도 되었지만 여전히 무겁습니다. 이때 대안으로 다시금 떠오르고 있는게 SSM(State Space Models) 입니다. 사실 자연어 처리분야에서 쓰이던 개념이긴 한데 이것은 지금과 같은 언어모델이 각광 받는 시대에 Transformer의 단점을 메워줄 방법으로 다시금 주목을 받고 있습니다. SSM은 시계열 데이터를 효율적으로 처리할 수 있는 구조를 가지고 있습니다. 이 모델은 시간에 따른 데이터의 변화를 고려하여, 더 정확하고 빠른 예측을 할 수 있습니다. 또한, 계산 비용이 상대적으로 낮아서, 긴 시퀀스 데이터를 처리하는 데 효과적입니다. 이해를 쉽게 하기 위해 비교해보면 다음과 같습니다. 예를 들어, SSM을 일기 예보와 비교해볼 수 있습니다. 일기 예보는 과거와 현재의 날씨 데이터를 기반으로 미래의 날씨를 예측합니다. 이때, 각 날짜의 기온, 습도, 강수량 등의 데이터는 시간의 흐름에 따라 변화하는 시계열 데이터입니다. SSM은 이러한 시계열 데이터를 분석하고 예측하는 데 효과적인 모델로, 데이터의 시간적 변화를 고려하여 미래를 예측합니다. 반면, Transformer는 '어텐션 메커니즘(Attention Mechanism)'을 사용하여 데이터의 관계를 학습합니다. 이를 영화 추천 시스템에 비유할 수 있습니다. 영화 추천 시스템은 사용자가 과거에 본 영화들을 분석하여, 그와 비슷한 성격의 영화를 추천합니다. Transformer는 문장 내의 단어들 사이의 관계를 파악하여, 전체 문맥을 이해하는 데 강점이 있습니다. 하지만, Transformer는 많은 데이터와 복잡한 계산을 필요로 하며, 긴 문장을 처리하는 데 어려움이 있습니다. 이는 마치 영화 추천 시스템이 너무 많은 데이터를 분석해야 하거나, 사용자의 선호도가 너무 다양하여 정확한 추천을 하는 데 어려움을 겪는 것과 유사합니다. SSM은 이러한 Transformer의 한계를 극복할 수 있습니다. SSM은 시간의 흐름에 따른 데이터의 변화를 중요시하며, 더 적은 계산 비용으로 효과적인 예측을 할 수 있습니다. 이는 마치 일기 예보가 과거 데이터를 바탕으로 간단하면서도 정확한 미래 날씨를 예측하는 것과 같습니다. 즉, SSM은 시계열 데이터의 시간적 변화를 중요시하는 일기 예보와 같으며, Transformer는 데이터 간의 관계를 중요시하는 영화 추천 시스템과 비슷합니다. SSM은 Transformer의 계산적 한계와 긴 문장 처리의 어려움을 극복할 수 있는 대안적인 모델로 주목받고 있습니다. 개인적으로 SSM이 Transformer와 상호보안적으로 작동할 수 있을 거라고 생각합니다. 이 둘을 섞은 cocktail Model이 하나 나오지 않을까 하는 기대를 하며 다들 Transformer만 보고 있기에 SSM이라는 화두도 던져 보고 갑니다. 사실 이번에 구글에서 공개한 Gemini에서도 SSM의 특성과 Transformer의 특성을 활용 했다고 밝혔습니다.