본 논문은 기존 단백질 공학 방법의 복잡성과 자원 집약성을 극복하기 위해 단백질 언어 모델(pLM)을 활용한 고친화성 결합체 생성 방법을 제시합니다. AlphaProteo나 RFdiffusion과 같은 기존 GenAI 기반 방법들이 표적 단백질의 3D 구조 및 특정 결합 부위 정보에 의존하는 것과 달리, 본 연구에서는 방대한 양의 비표지 단백질 서열 데이터로 사전 훈련된 새로운 pLM 계열인 Prot42를 소개합니다. 자연어 처리의 발전을 기반으로 설계된 고급 자동회귀 디코더 전용 아키텍처를 통해 진화적, 구조적, 기능적 통찰력을 포착하여, 최대 8,192개 아미노산까지의 서열을 처리할 수 있으며, 대형 단백질 및 복합 다중 도메인 서열의 정밀 모델링을 가능하게 합니다. 실제 응용 사례로, Prot42는 고친화성 단백질 결합체 및 서열 특이적 DNA 결합 단백질 생성에 탁월한 성능을 보이며, 공개적으로 제공되어 과학계에 효율적이고 정밀한 단백질 공학 컴퓨팅 도구를 제공합니다.