Sign In

A Multimodal Symphony: Integrating Taste and Sound through Generative AI

Created by
  • Haebom
Category
Empty

저자

Matteo Spanio, Massimiliano Zampini, Antonio Roda, Franco Pierucci

개요

본 논문은 최근 뇌과학 및 심리학 연구에서 맛과 청각 인지 간의 직접적인 관계를 밝힌 연구들을 바탕으로, 맛 정보를 음악으로 변환할 수 있는 다중 모달 생성 모델을 탐구합니다. 기존 연구의 주요 발견과 방법론을 간략히 검토하고, 미세 조정된 음악 생성 모델(MusicGEN)을 사용하여 각 음악 작품에 대한 자세한 맛 설명을 기반으로 음악을 생성하는 실험을 제시합니다. 참가자(n=111) 평가에 따르면, 미세 조정된 모델은 미세 조정되지 않은 모델에 비해 입력된 맛 설명을 더 일관되게 반영하는 음악을 생성하는 것으로 나타났습니다. 이 연구는 AI, 소리 및 맛 사이의 구현된 상호 작용을 이해하고 개발하는 데 중요한 발걸음이며, 생성 AI 분야에 새로운 가능성을 제시합니다. 데이터셋, 코드 및 사전 훈련된 모델은 https://osf.io/xs5jy/ 에서 공개됩니다.

시사점, 한계점

시사점:
맛과 음악 간의 관계를 다중 모달 생성 모델을 통해 탐구하고, 성공적으로 맛 정보를 음악으로 변환하는 가능성을 보여줌.
미세 조정된 MusicGEN 모델이 맛 설명을 더 잘 반영하는 음악 생성에 성공함.
생성 AI 분야에서 맛과 소리의 구현된 상호작용에 대한 새로운 가능성 제시 및 관련 데이터셋, 코드, 모델 공개.
한계점:
참가자 수 (n=111)가 상대적으로 적을 수 있음.
맛 설명의 주관성 및 다양성을 고려한 모델의 일반화 성능에 대한 추가 연구 필요.
맛과 음악의 복잡한 상호작용을 완전히 포착하지 못할 가능성 존재.
👍