Sign In

Agentic Large Language Models for Conceptual Systems Engineering and Design

Created by
  • Haebom
Category
Empty

저자

Soheyl Massoudi, Mark Fuge

개요

본 논문은 초기 단계의 엔지니어링 설계를 위한 대규모 언어 모델 (LLM) 기반 워크플로우의 성능을 평가한다. 특히, 요구사항 추출, 기능 분해, 시뮬레이터 코드 생성을 효과적으로 관리하기 위해 구조화된 다중 에이전트 시스템 (MAS)이 단순한 2-에이전트 시스템 (2AS)보다 나은지 비교한다. 태양광 발전 방식의 정수 시스템 설계를 목표로 하며, Design-State Graph (DSG)라는 JSON 직렬화 가능한 표현을 사용하여 요구사항, 물리적 구현 및 Python 기반 물리 모델을 캡슐화한다. 9개의 역할을 가진 MAS는 DSG를 반복적으로 구축 및 개선하는 반면, 2AS는 Generator-Reflector 루프로 프로세스를 축약한다. 60개의 실험(2개의 LLM, 2개의 에이전트 설정, 3개의 온도, 5개의 시드)을 통해 JSON 유효성, 요구사항 범위, 구현 존재, 코드 호환성, 워크플로우 완료, 런타임 및 그래프 크기를 보고한다.

시사점, 한계점

MAS는 2AS보다 설계 세부 사항을 향상시켰다.
DeepSeek R1 70B 기반 MAS는 더 세분화된 DSG를 생성했다.
구조화된 다중 에이전트 오케스트레이션이 설계 디테일을 향상시켰다.
추론 기반 LLM은 완료율을 향상시켰다.
두 시스템 모두 완벽한 JSON 무결성과 구현 태깅을 유지했다.
요구사항 범위는 여전히 낮았다(20% 미만).
코드 호환성은 특정 2AS 설정에서 최고 100%를 기록했지만 MAS의 평균은 50% 미만이었다.
낮은 요구사항 충족률과 코드의 충실도 격차가 존재했다.
워크플로우 완료는 추론 기반 모델에서만 신뢰할 수 있게 확인되었다.
👍