본 논문은 React와 Vue와 같은 프레임워크의 특징을 활용하는 최신 프론트엔드(FE) 개발의 어려움, 즉 모듈화된 아키텍처 관리, 선언적 렌더링을 위한 데이터와 시각적 출력 간의 동기화 보장, 다양한 시나리오에 대한 재사용 가능한 구성 요소 적용 등을 다룹니다. 이러한 복잡성으로 인해 최첨단 대규모 비전-언어 모델(VLMs)이 디자인 이미지로부터 정확하고 기능적인 코드를 직접 생성하는 것이 특히 어렵습니다. 이러한 문제를 해결하기 위해, 본 논문은 FE 개발의 다양한 특성을 포착하는 고품질 이미지-텍스트 데이터를 합성하는 반성적 에이전트 워크플로우를 제안합니다. 이 워크플로우는 실제 프로젝트에서 자체 포함 코드 스니펫을 자동으로 추출하고, 해당 시각적 출력을 렌더링하고, 디자인 요소를 기능 코드에 연결하는 자세한 설명을 생성합니다. 합성의 범위와 유용성을 더욱 확장하기 위해, 진화 기반 합성, 폭포 모델 기반 합성, 그리고 가산적 개발 합성의 세 가지 데이터 합성 전략을 제시합니다. 합성된 데이터셋으로 훈련된 대규모 비전-언어 모델 Flame을 구축하고, $\text{pass}@k$ 메트릭을 통해 React 코드 생성의 효과를 입증합니다. 결과는 코드 생성 전에 이미지를 해석하도록 훈련된 코드 VLM이 더 나은 성능을 달성할 수 있음을 시사합니다.