Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

Matrix: Peer-to-Peer Multi-Agent Synthetic Data Generation Framework

Created by
  • Haebom
Category
Empty

저자

Dong Wang, Yang Li, Ansong Ni, Ching-Feng Yeh, Youssef Emad, Xinjie Lei, Liam Robbins, Karthik Padthe, Hu Xu, Xian Li, Asli Celikyilmaz, Ramya Raghavendra, Lifei Huang, Carole-Jean Wu, Shang-Wen Li

개요

본 논문은 대규모 언어 모델 훈련을 위한 합성 데이터 생성을 위해 설계된 분산 프레임워크인 Matrix를 제시합니다. Matrix는 중앙 집중식 오케스트레이터 없이, 분산 큐를 통해 직렬화된 메시지로 제어 및 데이터 흐름을 표현하는 피어 투 피어 설계를 사용합니다. Ray 기반으로 구축되어 수만 개의 동시 에이전트 워크플로우로 확장 가능하며, 모듈식 설계를 통해 다양한 데이터 생성 워크플로우에 쉽게 적응할 수 있습니다. Matrix는 다중 에이전트 협업 대화, 웹 기반 추론 데이터 추출, 고객 서비스 환경에서의 도구 사용 궤적 생성 등 다양한 시나리오에서 기존 방식보다 2~15배 높은 데이터 생성 처리량을 달성했습니다.

시사점, 한계점

시사점:
중앙 집중식 오케스트레이터의 병목 현상 없이 확장 가능한 분산 데이터 생성 프레임워크 제시.
다양한 데이터 생성 워크플로우에 유연하게 적용 가능한 모듈식 설계.
다양한 시나리오에서 기존 방식 대비 높은 데이터 생성 처리량 달성.
한계점:
Ray 기반 구축에 따른 Ray 의존성.
구체적인 하드웨어 자원 사용량 및 비용에 대한 정보 부족.
특정 데이터 생성 워크플로우에 최적화된 설계일 수 있으며, 모든 유형의 워크플로우에 적용 가능할지에 대한 검증 필요.
👍