본 연구는 최첨단 대규모 언어 모델(LLM)인 GPT-3.5, GPT-4, LLAMA3, Mistral 7B, Claude-2의 러시아어 및 우크라이나어 소셜 미디어 게시글 데이터셋에 대한 제로샷 및 퓨샷 주석 능력을 조사합니다. 특히, 인권 침해 언급을 식별하는 이진 분류 작업에 초점을 맞추어 1000개의 샘플에 대한 이중 주석된 인간 레이블 골드 스탠다드와 LLM의 주석 결과를 비교 분석합니다. 영어 및 러시아어 프롬프트를 사용한 실험을 통해 각 모델의 성능, 오류 패턴, 상호 언어 적응성을 평가하고, LLM의 신뢰성과 다국어 환경에서의 민감한 도메인 특정 작업에 대한 적용 가능성을 이해하는 데 기여합니다.