본 논문은 제조 분야에서 인간의 수행을 지원하는 다중 모달 AI 시스템 구축과 관련된 문제점들을 다룹니다. 참여형 설계 및 시스템 훈련의 어려움을 제시하고, 이러한 문제를 해결하기 위해 ACE(Action and Control via Explanations) 패러다임을 제안합니다. ACE는 LLM을 사용하여 사람이 이해할 수 있는 "의미 프레임(semantic frames)" 형태의 설명을 생성하고, 이를 통해 최종 사용자가 AI 시스템이 컴퓨터 비전, 자동 음성 인식 및 문서 입력을 포함한 다중 모달 모델 및 표현을 정렬하는 데 필요한 데이터를 제공할 수 있도록 합니다. LLM을 이용한 의미 프레임 설명을 통해 인간과 AI 시스템의 협업을 가능하게 하여, 인간 활동 및 행동에 대한 더 정확한 모델을 구축하고, 더 정확한 예측 결과를 도출하여 수동 작업을 수행하는 사용자에게 더 나은 작업 지원과 결과를 제공하는 것을 목표로 합니다.