본 논문은 동물들이 세상을 인지하는 데 중요한 역할을 하는 후각 정보를 기계가 접근하기 어렵다는 점에 주목하여, 자연 환경에서 수집된 다양하고 멀티모달한 후각 훈련 데이터의 부족 문제를 해결하고자 한다. 이를 위해, 저자들은 "New York Smells"라는 대규모 데이터 세트를 제시한다. 이 데이터 세트는 실내 및 실외 환경에서 3,500개의 서로 다른 객체로부터 수집된 7,000개의 냄새-이미지 쌍을 포함하며, 기존 후각 데이터 세트보다 약 70배 많은 객체를 포함한다. 이 데이터 세트를 기반으로 냄새-이미지 간 상호 모달 검색, 냄새만으로 장면, 객체, 재료 인식, 그리고 잔디 종 간의 미세한 구별을 수행하는 세 가지 벤치마크 작업을 제시한다. 실험 결과, 시각 데이터를 통해 상호 모달 후각 표현 학습이 가능하며, 학습된 후각 표현이 널리 사용되는 수작업 특징보다 우수함을 확인했다.