본 논문은 엔지니어링 인공 일반 지능(eAGI) 에이전트의 평가를 위한 프레임워크를 제안합니다. eAGI는 물리적 시스템 및 관련 제어기의 엔지니어링에서 광범위한 문제를 해결할 수 있는 인공 일반 지능(AGI)의 특수화된 분야로 정의됩니다. 본 논문에서는 다루기 쉬운 범위를 위해 소프트웨어 엔지니어링을 제외하며, 소프트웨어 구현 과제는 전용 소프트웨어 엔지니어링 AI 에이전트가 담당할 것으로 예상합니다. 인간 엔지니어와 유사하게, eAGI 에이전트는 사실과 방법에 대한 배경 지식(상기 및 검색), 도구 및 프로세스에 대한 친숙함, 산업 구성 요소 및 잘 알려진 설계 패밀리에 대한 깊이 있는 이해, 창의적인 문제 해결(분석 및 종합) 및 한 맥락에서 얻은 아이디어를 다른 맥락으로 전달하는 능력을 가져야 합니다. 본 논문에서는 인간 학습 평가를 위해 사용되고 최근에는 LLM 평가에도 사용된 Bloom의 분류 체계를 엔지니어링 설계 맥락에 특화하고 기반으로 하는 확장 가능한 평가 프레임워크를 제안하여 이러한 과제를 해결합니다. 제안된 프레임워크는 (a) 방법론적 지식에서 실제 설계 문제에 이르는 다양한 평가 질문의 풍부한 분류 체계 개발, (b) 텍스트 응답뿐만 아니라 CAD 모델 및 SysML 모델과 같은 구조화된 설계 산출물도 평가할 수 있는 플러그 가능한 평가 프레임워크 제안, (c) 다양한 엔지니어링 맥락에 평가 벤치마크를 사용자 지정하기 위한 자동화 가능한 절차 개요 등 세 가지 측면에서 AI 에이전트의 벤치마킹 및 평가에 대한 최신 기술을 발전시킵니다.