This page organizes papers related to artificial intelligence published around the world. This page is summarized using Google Gemini and is operated on a non-profit basis. The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.
Matrix: Peer-to-Peer Multi-Agent Synthetic Data Generation Framework
Created by
Haebom
Category
Empty
저자
Dong Wang, Yang Li, Ansong Ni, Ching-Feng Yeh, Youssef Emad, Xinjie Lei, Liam Robbins, Karthik Padthe, Hu Xu, Xian Li, Asli Celikyilmaz, Ramya Raghavendra, Lifei Huang, Carole-Jean Wu, Shang-Wen Li
개요
본 논문은 대규모 언어 모델 훈련을 위한 합성 데이터 생성을 위해 설계된 분산 프레임워크인 Matrix를 제시합니다. Matrix는 중앙 집중식 오케스트레이터 없이, 분산 큐를 통해 직렬화된 메시지로 제어 및 데이터 흐름을 표현하는 피어 투 피어 설계를 사용합니다. Ray 기반으로 구축되어 수만 개의 동시 에이전트 워크플로우로 확장 가능하며, 모듈식 설계를 통해 다양한 데이터 생성 워크플로우에 쉽게 적응할 수 있습니다. Matrix는 다중 에이전트 협업 대화, 웹 기반 추론 데이터 추출, 고객 서비스 환경에서의 도구 사용 궤적 생성 등 다양한 시나리오에서 기존 방식보다 2~15배 높은 데이터 생성 처리량을 달성했습니다.
시사점, 한계점
•
시사점:
◦
중앙 집중식 오케스트레이터의 병목 현상 없이 확장 가능한 분산 데이터 생성 프레임워크 제시.
◦
다양한 데이터 생성 워크플로우에 유연하게 적용 가능한 모듈식 설계.
◦
다양한 시나리오에서 기존 방식 대비 높은 데이터 생성 처리량 달성.
•
한계점:
◦
Ray 기반 구축에 따른 Ray 의존성.
◦
구체적인 하드웨어 자원 사용량 및 비용에 대한 정보 부족.
◦
특정 데이터 생성 워크플로우에 최적화된 설계일 수 있으며, 모든 유형의 워크플로우에 적용 가능할지에 대한 검증 필요.