A Multimodal Symphony: Integrating Taste and Sound through Generative AI
Created by
Haebom
Category
Empty
저자
Matteo Spanio, Massimiliano Zampini, Antonio Roda, Franco Pierucci
개요
본 논문은 최근 뇌과학 및 심리학 연구에서 맛과 청각 인지 간의 직접적인 관계를 밝힌 연구들을 바탕으로, 맛 정보를 음악으로 변환할 수 있는 다중 모달 생성 모델을 탐구합니다. 기존 연구의 주요 발견과 방법론을 간략히 검토하고, 미세 조정된 음악 생성 모델(MusicGEN)을 사용하여 각 음악 작품에 대한 자세한 맛 설명을 기반으로 음악을 생성하는 실험을 제시합니다. 참가자(n=111) 평가에 따르면, 미세 조정된 모델은 미세 조정되지 않은 모델에 비해 입력된 맛 설명을 더 일관되게 반영하는 음악을 생성하는 것으로 나타났습니다. 이 연구는 AI, 소리 및 맛 사이의 구현된 상호 작용을 이해하고 개발하는 데 중요한 발걸음이며, 생성 AI 분야에 새로운 가능성을 제시합니다. 데이터셋, 코드 및 사전 훈련된 모델은 https://osf.io/xs5jy/ 에서 공개됩니다.