Sign In

LLMs as Layout Designers: Enhanced Spatial Reasoning for Content-Aware Layout Generation

Created by
  • Haebom
Category
Empty

저자

Sha Li, Stefano Petrangeli, Yu Shen, Xiang Chen, Naren Ramakrishnan

개요

본 논문은 대규모 언어 모델(LLM)이 텍스트 기반 작업에서 뛰어난 추론 및 계획 능력을 보여주지만, 공간 관계 이해 및 조작 능력이 부족하다는 점에 주목한다. 이를 해결하기 위해, 저자들은 레이아웃 디자인을 위한 명시적인 공간 추론 능력을 LLM 기반 에이전트에 추가하는 강화 학습 기반 프레임워크인 LaySPA를 소개한다. LaySPA는 기하학적 제약, 구조적 충실도, 시각적 품질을 결합한 하이브리드 보상 신호를 사용하여 에이전트가 캔버스를 탐색하고, 요소 간 관계를 모델링하며, 공간 배치를 최적화하도록 한다. LaySPA는 그룹-상대 정책 최적화를 통해, 시각적으로 균형 잡히고 구조적으로 타당한 레이아웃을 생성하며, 배치 결정 및 구조화된 레이아웃 사양을 설명하는 해석 가능한 추론 추적을 제공한다. 실험 결과는 LaySPA가 구조적으로 유효하고 시각적으로 매력적인 레이아웃 생성을 크게 개선하며, 더 큰 범용 LLM을 능가하고 최첨단 전문 레이아웃 모델과 유사한 성능을 달성함을 보여준다.

시사점, 한계점

시사점:
LLM 기반 에이전트의 공간 추론 능력 향상을 통해 콘텐츠 인식 레이아웃 디자인 문제 해결.
기하학적 제약, 구조적 충실도, 시각적 품질을 통합한 하이브리드 보상 신호 사용.
그룹-상대 정책 최적화를 통한 시각적으로 균형 잡히고 구조적으로 타당한 레이아웃 생성.
배치 결정 및 레이아웃 사양을 설명하는 해석 가능한 추론 추적 제공.
더 큰 LLM 및 기존 전문 레이아웃 모델 대비 우수한 성능 달성.
한계점:
논문 내에서 구체적인 한계점 언급 없음. (하지만 논문의 세부 내용과 관련해 추가적인 한계점은 추후 연구를 통해 밝혀질 수 있음)
👍