본 논문은 기존 단백질 공학의 복잡성과 자원 집약성을 극복하기 위해 단백질 언어 모델(pLM)을 활용한 고친화성 결합자 생성 방법을 제시합니다. AlphaProteo나 RFdiffusion과 같은 기존 모델들이 단백질 3D 구조 및 특정 결합 부위 정보에 의존하는 것과 달리, Prot42라는 새로운 pLM 패밀리를 소개합니다. Prot42는 방대한 양의 비표지 단백질 서열을 사전 학습하여 진화적, 구조적, 기능적 통찰력을 학습하였으며, 최대 8,192개 아미노산 서열을 처리할 수 있습니다. 이는 기존 모델의 한계를 뛰어넘어 큰 단백질 및 복잡한 다중 도메인 서열의 정밀한 모델링을 가능하게 합니다. 실제 응용 사례로 고친화성 단백질 결합자 및 서열 특이적 DNA 결합 단백질 생성에 탁월한 성능을 보이며, 공개적으로 접근 가능하여 단백질 공학 연구에 효율적이고 정밀한 계산 도구를 제공합니다.