Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multilingual Multimodal Software Developer for Code Generation

Created by
  • Haebom

저자

Linzheng Chai, Jian Yang, Shukai Liu, Wei Zhang, Liran Wang, Ke Jin, Tao Sun, Congnan Liu, Chenchen Zhang, Hualei Zhu, Jiaheng Liu, Xianjie Wu, Ge Zhang, Tianyu Liu, Zhoujun Li

개요

본 논문은 대규모 언어 모델(LLM)의 코드 생성 능력 향상에도 불구하고, 실제 소프트웨어 개발에서 사용되는 다이어그램 및 플로우차트와 같은 시각적 자료를 고려하지 못하는 한계를 지적하며, 이를 해결하기 위해 다국어 다중모드 소프트웨어 개발자 MM-Coder를 제시한다. MM-Coder는 UML 다이어그램 및 플로우차트(Visual Workflow)와 같은 시각적 설계 입력을 텍스트 지시사항과 통합하여 코드 생성 정확도와 아키텍처 정합성을 높인다. 이를 위해 시각적 워크플로우 기반 코드 생성을 포함하는 다양한 다중모드 지시사항 튜닝 데이터셋인 MMc-Instruct를 개발하고, 기존의 텍스트 전용 평가의 한계를 해결하는 새로운 다중모드 코드 생성 평가 벤치마크인 MMEval을 제안한다. MMEval을 이용한 평가 결과, 모델이 시각 정보 정확하게 포착하고, 지시사항을 따르며, 고급 프로그래밍 지식을 활용하는 데 여전히 상당한 어려움이 있음을 보여준다. 본 연구는 LLM이 텍스트와 시각적 설계 모두를 통해 전달되는 복잡한 명세를 해석하고 구현할 수 있도록 함으로써 산업 프로그래밍에 혁신을 가져오는 것을 목표로 한다.

시사점, 한계점

시사점:
UML 다이어그램 및 플로우차트와 같은 시각 정보를 활용한 코드 생성의 가능성을 제시.
다중모드 코드 생성을 위한 새로운 벤치마크 MMEval 제안.
다중모드 지시사항 튜닝 데이터셋 MMc-Instruct 개발.
텍스트와 시각 정보를 통합한 코드 생성을 통해 코드 생성 정확도 및 아키텍처 정합성 향상.
산업 프로그래밍의 혁신 가능성 제시.
한계점:
모델이 시각 정보를 정확하게 포착하는 데 어려움 존재.
지시사항을 정확하게 따르는 데 어려움 존재.
고급 프로그래밍 지식을 활용하는 데 어려움 존재.
👍