본 논문은 소비자 대상 애플리케이션에 배포된 언어 모델의 위험성을 실증적으로 분석한 연구입니다. 기존 연구가 규제 프레임워크 및 이론적 분석에 기반한 상향식 접근 방식을 취한 반면, 본 연구는 공개적으로 보고된 사건들을 체계적으로 검토하여 실제 세계의 실패 모드에 대한 경험적 증거를 제시합니다. RealHarm이라는 데이터셋을 구축하여 AI 에이전트와의 문제가 있는 상호 작용을 주석 처리하고, 배포자 관점에서 피해, 원인, 위험을 분석합니다. 그 결과, 평판 손상이 주요 조직적 피해이며, 잘못된 정보가 가장 일반적인 위험 범주임을 발견했습니다. 또한 최첨단 안전장치와 콘텐츠 조정 시스템을 평가하여 해당 시스템이 사고를 예방했을지 여부를 확인하고, AI 애플리케이션 보호에 상당한 차이가 있음을 밝혔습니다.