Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

On the Evaluation of Engineering Artificial General Intelligence

Created by
  • Haebom

저자

Sandeep Neema, Susmit Jha, Adam Nagel, Ethan Lew, Chandrasekar Sureshkumar, Aleksa Gordic, Chase Shimmin, Hieu Nguygen, Paul Eremenko

개요

본 논문은 엔지니어링 인공 일반 지능(eAGI) 에이전트의 평가를 위한 프레임워크를 제안합니다. eAGI는 물리적 시스템 및 관련 제어기의 엔지니어링에서 광범위한 문제를 해결할 수 있는 인공 일반 지능(AGI)의 특수화된 분야로 정의됩니다. 본 논문에서는 다루기 쉬운 범위를 위해 소프트웨어 엔지니어링을 제외하며, 소프트웨어 구현 과제는 전용 소프트웨어 엔지니어링 AI 에이전트가 담당할 것으로 예상합니다. 인간 엔지니어와 유사하게, eAGI 에이전트는 사실과 방법에 대한 배경 지식(상기 및 검색), 도구 및 프로세스에 대한 친숙함, 산업 구성 요소 및 잘 알려진 설계 패밀리에 대한 깊이 있는 이해, 창의적인 문제 해결(분석 및 종합) 및 한 맥락에서 얻은 아이디어를 다른 맥락으로 전달하는 능력을 가져야 합니다. 본 논문에서는 인간 학습 평가를 위해 사용되고 최근에는 LLM 평가에도 사용된 Bloom의 분류 체계를 엔지니어링 설계 맥락에 특화하고 기반으로 하는 확장 가능한 평가 프레임워크를 제안하여 이러한 과제를 해결합니다. 제안된 프레임워크는 (a) 방법론적 지식에서 실제 설계 문제에 이르는 다양한 평가 질문의 풍부한 분류 체계 개발, (b) 텍스트 응답뿐만 아니라 CAD 모델 및 SysML 모델과 같은 구조화된 설계 산출물도 평가할 수 있는 플러그 가능한 평가 프레임워크 제안, (c) 다양한 엔지니어링 맥락에 평가 벤치마크를 사용자 지정하기 위한 자동화 가능한 절차 개요 등 세 가지 측면에서 AI 에이전트의 벤치마킹 및 평가에 대한 최신 기술을 발전시킵니다.

시사점, 한계점

시사점:
eAGI 에이전트 평가를 위한 체계적이고 확장 가능한 프레임워크 제시
Bloom의 분류 체계를 엔지니어링 설계 맥락에 적용하여 평가 기준 마련
텍스트뿐 아니라 CAD 모델, SysML 모델 등 다양한 설계 산출물 평가 가능
자동화된 평가 벤치마크 생성 절차 제시
한계점:
제안된 프레임워크의 실제 적용 및 성능 검증에 대한 추가 연구 필요
소프트웨어 엔지니어링 분야 제외로 인한 eAGI 에이전트 평가의 제한
다양한 엔지니어링 분야에 대한 프레임워크의 일반화 가능성 검증 필요
👍