SweEval: Do LLMs Really Swear? A Safety Benchmark for Testing Limits for Enterprise Use
Created by
Haebom
저자
Hitesh Laxmichand Patel, Amit Agarwal, Arion Das, Bhargava Kumar, Srikant Panda, Priyaranjan Pattnayak, Taki Hasan Rafi, Tejaswini Kumar, Dong-Kyu Chae
개요
본 논문은 기업 고객들이 이메일 작성, 영업 제안서 작성, 일상적인 메시지 작성 등 중요한 의사소통 업무에 대규모 언어 모델(LLM)을 점점 더 많이 채택하고 있다는 점을 배경으로 합니다. 다양한 지역에 걸쳐 이러한 모델을 배포하려면 다양한 문화적, 언어적 맥락을 이해하고 안전하고 존중하는 응답을 생성해야 합니다. 기업 애플리케이션의 경우 평판 위험을 완화하고 신뢰를 유지하며 규정 준수를 보장하기 위해 안전하지 않거나 공격적인 언어를 효과적으로 식별하고 처리하는 것이 중요합니다. 이를 해결하기 위해, 본 논문에서는 긍정적 또는 부정적 어조와 공식적 또는 비공식적 맥락의 변화를 포함하는 실제 시나리오를 시뮬레이션하는 벤치마크인 SweEval을 소개합니다. 프롬프트는 모델에게 특정 욕설을 포함하면서 작업을 완료하도록 명시적으로 지시합니다. 이 벤치마크는 LLM이 이러한 부적절한 지시를 준수하거나 거부하는지 여부를 평가하고 윤리적 프레임워크, 문화적 미묘함 및 언어 이해 능력과의 정렬을 평가합니다. 기업용 및 그 이상의 윤리적으로 정렬된 AI 시스템 구축에 대한 연구를 발전시키기 위해 데이터셋과 코드를 공개합니다 (https://github.com/amitbcp/multilingual_profanity).
시사점: 기업 환경에서 LLM의 윤리적 사용에 대한 새로운 벤치마크인 SweEval을 제공하여, LLM의 안전성과 윤리적 정렬을 평가하는 데 도움을 줍니다. 다양한 문화적, 언어적 맥락에서 LLM의 성능을 평가할 수 있는 데이터셋과 코드를 공개하여 관련 연구를 촉진합니다.
•
한계점: SweEval이 특정한 유형의 부적절한 언어(욕설)에 집중하기 때문에, 다른 유형의 유해한 콘텐츠(혐오 발언, 차별적 언어 등)를 포괄적으로 평가하지 못할 수 있습니다. 벤치마크의 실제 세계 적용 가능성과 일반화 가능성에 대한 추가 연구가 필요합니다. 프롬프트에서 명시적으로 욕설을 포함하도록 지시하는 방식이 실제 상황을 완벽히 반영하지 못할 수 있습니다.