Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation

Created by
  • Haebom

저자

Joachim Baumann, Paul Rottger, Aleksandra Urman, Albert Wendsjo, Flor Miriam Plaza-del-Arco, Johannes B. Gruber, Dirk Hovy

개요

본 논문은 대규모 언어 모델(LLM)을 사회과학 연구에 활용할 때 발생하는 'LLM 해킹' 문제를 다룬다. LLM을 이용한 데이터 주석 및 텍스트 분석은 연구자의 모델 선택, 프롬프트 전략, 온도 설정 등 구현 선택에 따라 출력 결과가 크게 달라질 수 있으며, 이는 체계적인 편향과 무작위 오류를 유발하여 1종, 2종, S종, M종 오류를 야기할 수 있다. 연구진은 21개의 사회과학 연구 논문에서 발췌한 37개의 데이터 주석 작업을 18개의 다른 모델로 복제하여 1300만 개의 LLM 레이블을 분석하고, 2361개의 가설을 검증하여 연구자의 선택이 통계적 결론에 미치는 영향을 측정했다. 그 결과, 최첨단 모델의 경우 약 3분의 1의 가설에서, 소규모 언어 모델의 경우 약 절반의 가설에서 LLM 주석 데이터를 기반으로 잘못된 결론을 도출하는 것으로 나타났다. 높은 작업 성능과 우수한 일반적인 모델 기능이 LLM 해킹 위험을 줄이지만 완전히 제거하지는 못하며, 효과 크기가 커질수록 LLM 해킹 위험은 감소한다. 또한, 의도적인 LLM 해킹은 매우 간단하게 수행될 수 있으며, 소수의 LLM과 몇 가지 프롬프트 변형만으로도 어떤 결과든 통계적으로 유의미한 것으로 제시될 수 있음을 보여준다. 결론적으로, LLM을 활용한 사회과학 연구는 인간의 주석 작업과 신중한 모델 선택을 통해 오류를 최소화해야 한다는 점을 강조한다.

시사점, 한계점

시사점:
LLM을 사회과학 연구에 적용할 때 발생하는 'LLM 해킹' 문제의 심각성을 정량적으로 밝힘.
LLM 해킹 위험을 줄이기 위한 인간 주석의 중요성 강조.
효과 크기가 클수록 LLM 해킹 위험 감소.
통계적 유의성 역치 근처의 결과는 더욱 엄격한 검증 필요.
일반적인 회귀 추정치 수정 기법은 LLM 해킹 위험 감소에 효과적이지 않음.
의도적인 LLM 해킹이 매우 쉽다는 것을 밝힘.
한계점:
분석에 사용된 LLM 및 데이터셋의 일반화 가능성에 대한 검토 필요.
LLM 해킹 위험 완화를 위한 더욱 효과적인 방법론 연구 필요.
👍