본 논문은 다중 모달 데이터셋의 신뢰성과 윤리적 측면에 대한 통찰력을 제공하기 위해, 신뢰할 수 있고 윤리적인 데이터셋 지표(TEDI)를 제시한다. TEDI는 다중 모달 데이터셋 및 수집 과정의 신뢰할 수 있고 윤리적인 속성을 특징짓는 143개의 세분화된 지표를 포함하며, 데이터셋 문서에서 검증 가능한 정보를 추출하도록 설계되었다. 연구진은 TEDI를 사용하여 인간의 음성을 포함하는 100개 이상의 다중 모달 데이터셋을 수동으로 주석 처리하고 분석하여 데이터 소싱, 크기, 모달리티 세부 정보를 추가로 주석 처리함으로써 데이터셋 전반에 걸쳐 신뢰할 수 있고 윤리적인 측면을 형성하는 요인에 대한 통찰력을 얻었다. 분석 결과, 동의, 개인 정보 보호 및 유해 콘텐츠 지표와 관련된 속성 및 관행을 문서화한 데이터셋은 소수에 불과하며, 이러한 윤리적 지표가 다루어지는 정도는 데이터 수집 방법에 따라 다르다는 것을 발견했다. 크라우드소싱 및 직접 수집 방식으로 수집된 데이터셋의 문서에는 이러한 지표가 더 많이 언급될 가능성이 높았다. 스크래핑은 윤리적 지표를 희생하면서 규모를 확보하는 주요 방법이지만, 유일한 실행 가능한 수집 방법은 아니다. 이 연구의 접근 방식과 경험적 통찰력은 신뢰할 수 있고 윤리적인 측면에서 데이터셋 투명성을 높이는 데 기여하며, 향후 데이터셋 문서에서 정보를 추출하는 지루한 작업을 자동화하는 길을 열어준다.