본 논문은 LLM(Large Language Models)이 고수준 작업 설명과 저수준 형태 및 재료 선택 사이의 격차를 효과적으로 연결하는 연성 로봇 설계를 학습할 수 있는지 평가하는 새로운 벤치마크인 RoboCrafter-QA를 소개합니다. EvoGym 시뮬레이터를 사용하여 로봇 이동, 조작 및 균형 잡기 작업 등 다양한 연성 로봇 설계 과제를 생성합니다. 최첨단 멀티모달 LLM을 사용한 실험 결과, 이 모델들이 설계 표현을 학습하는 데 유망한 능력을 보이지만, 미묘한 성능 차이가 있는 설계 간의 미세한 구별에는 어려움을 겪는 것으로 나타났습니다. 이러한 한계를 극복하기 위해, 본 논문은 효율적인 오픈 소스 LLM을 미세 조정하여 벤치마크에서 SOTA 성능을 달성하고, 설계 선택 및 고성능 로봇 형태 직접 생성에서 뛰어난 능력을 입증했습니다. 또한, 모듈형 연성 로봇의 물리적 복제본을 제작하여 강력한 시뮬레이션-실제 상관관계를 입증하여, 우수한 벤치마크 성능이 효과적인 실제 설계 선택으로 이어질 수 있음을 확인했습니다.