본 논문은 광대한 화학 공간을 탐색하기 위해 개발된 새로운 생성 모델인 STAR-VAE를 제시합니다. STAR-VAE는 Transformer 기반의 인코더와 오토회귀 Transformer 디코더를 갖춘 확장 가능한 잠재 변수 프레임워크입니다. SELFIES를 사용하여 구문적 유효성을 보장하며, PubChem에서 얻은 7900만 개의 약물 유사 분자로 훈련되었습니다. 잠재 변수 공식은 속성 기반 생성을 가능하게 하며, 속성 예측기는 잠재 사전, 추론 네트워크 및 디코더에 일관되게 적용되는 조건 신호를 제공합니다. LoRA(low-rank adapters)를 사용하여 효율적인 파인튜닝을 수행하여, 제한된 데이터로도 빠르게 적응할 수 있습니다. GuacaMol, MOSES, Tartarus 벤치마크에서 기존 모델과 동등하거나 더 나은 성능을 보이며, 부드럽고 의미적으로 구조화된 잠재 공간 표현을 보여줍니다.