# Valley3: Scaling Omni Foundation Models for E-commerce

### 저자

Zeyu Chen, Guanghao Zhou, Qixiang Yin, Ziwang Zhao, Huanjin Yao, Pengjiu Xia, Min Yang, Cen Chen, Minghui Qiu

### 💡 개요

본 논문은 텍스트, 이미지, 비디오, 오디오 등 다양한 양식에서 통일된 이해 및 추론 능력을 갖춘 전자상거래 특화 옴니 멀티모달 대형 언어 모델(MLLM)인 Valley3를 소개합니다. Valley3는 특히 짧은 비디오 시나리오에서 중요한 오디오-비주얼 작업을 지원하기 위해 다국어 오디오 기능을 네이티브로 지원하며, 4단계 옴니 전자상거래 사전 학습 파이프라인을 통해 오디오 이해, 교차 모달 명령어 수행, 전자상거래 도메인 지식, 장기 문맥 추론 능력을 점진적으로 습득합니다. 또한, 추론 효율성과 복잡한 응용을 위한 심층 추론을 균형 있게 지원하는 제어 가능한 추론 모드를 통해 장기 연쇄 추론 능력을 향상시켰으며, 에이전트 검색 기능을 통해 전자상거래 심층 연구 작업에 필요한 정보를 능동적으로 검색합니다.

### 🔑 시사점 및 한계

- 전자상거래 분야에 특화된 옴니 멀티모달 모델의 가능성을 제시하며, 다양한 양식의 데이터를 통합적으로 처리하는 능력을 강화합니다.

- 다국어 오디오 기능을 네이티브로 지원하여 글로벌 전자상거래 환경에서의 활용성을 높이고, 특히 비디오 콘텐츠에서의 사용자 경험을 개선할 수 있습니다.

- 제어 가능한 추론 모드를 통해 효율성과 성능 간의 유연한 조정을 가능하게 하며, 에이전트 검색 기능을 통해 복잡한 연구 작업 수행 능력을 향상시킵니다.

- 논문에서 구축한 옴니 전자상거래 벤치마크는 향후 관련 연구의 평가 기준으로 활용될 수 있을 것입니다.

- (한계점 또는 향후 과제) 모델의 학습 데이터셋 구성, 특정 언어에 대한 성능 편차, 실시간 상호작용에서의 응답 속도 최적화 등이 향후 연구 과제가 될 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2605.01278)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
