Multilingual Multimodal Software Developer for Code Generation
Created by
Haebom
저자
Linzheng Chai, Jian Yang, Shukai Liu, Wei Zhang, Liran Wang, Ke Jin, Tao Sun, Congnan Liu, Chenchen Zhang, Hualei Zhu, Jiaheng Liu, Xianjie Wu, Ge Zhang, Tianyu Liu, Zhoujun Li
개요
본 논문은 대규모 언어 모델(LLM)의 코드 생성 능력 향상에도 불구하고, 실제 소프트웨어 개발에서 사용되는 다이어그램 및 플로우차트와 같은 시각적 자료를 고려하지 못하는 한계를 지적하며, 이를 해결하기 위해 다국어 다중모드 소프트웨어 개발자 MM-Coder를 제시한다. MM-Coder는 UML 다이어그램 및 플로우차트(Visual Workflow)와 같은 시각적 설계 입력을 텍스트 지시사항과 통합하여 코드 생성 정확도와 아키텍처 정합성을 높인다. 이를 위해 시각적 워크플로우 기반 코드 생성을 포함하는 다양한 다중모드 지시사항 튜닝 데이터셋인 MMc-Instruct를 개발하고, 기존의 텍스트 전용 평가의 한계를 해결하는 새로운 다중모드 코드 생성 평가 벤치마크인 MMEval을 제안한다. MMEval을 이용한 평가 결과, 모델이 시각 정보 정확하게 포착하고, 지시사항을 따르며, 고급 프로그래밍 지식을 활용하는 데 여전히 상당한 어려움이 있음을 보여준다. 본 연구는 LLM이 텍스트와 시각적 설계 모두를 통해 전달되는 복잡한 명세를 해석하고 구현할 수 있도록 함으로써 산업 프로그래밍에 혁신을 가져오는 것을 목표로 한다.
시사점, 한계점
•
시사점:
◦
UML 다이어그램 및 플로우차트와 같은 시각 정보를 활용한 코드 생성의 가능성을 제시.
◦
다중모드 코드 생성을 위한 새로운 벤치마크 MMEval 제안.
◦
다중모드 지시사항 튜닝 데이터셋 MMc-Instruct 개발.
◦
텍스트와 시각 정보를 통합한 코드 생성을 통해 코드 생성 정확도 및 아키텍처 정합성 향상.