Phare는 환각 및 신뢰성, 사회적 편향, 유해 콘텐츠 생성의 세 가지 중요한 측면에 걸쳐 LLM(대규모 언어 모델)의 동작을 조사하고 평가하는 다국어 진단 프레임워크입니다. 기존 평가가 실패 모드 식별보다 성능을 우선시하는 것과 달리, Phare는 17개의 최첨단 LLM을 평가하여 아첨, 프롬프트 민감성, 고정관념 재생산 등 모든 안전 측면에서 체계적인 취약성 패턴을 밝혀냅니다. 모델 순위 매기기가 아닌 특정 실패 모드를 강조함으로써, Phare는 더욱 강력하고, 정렬되고, 신뢰할 수 있는 언어 시스템을 구축하기 위한 실행 가능한 통찰력을 연구자와 실무자에게 제공합니다.