Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation

Created by
  • Haebom

저자

Joachim Baumann, Paul Rottger, Aleksandra Urman, Albert Wendsjo, Flor Miriam Plaza-del-Arco, Johannes B. Gruber, Dirk Hovy

개요

대규모 언어 모델(LLM)이 사회 과학 연구의 자동화를 가능하게 하지만, 연구자의 선택(모델 선택, 프롬프트 전략 등)에 따라 LLM의 출력이 크게 달라질 수 있다. 이러한 변동성은 체계적 편향과 무작위 오류를 유발하여 분석에 영향을 미치고, Type I, II, S, M 오류를 발생시킨다. 이러한 현상을 LLM 해킹이라고 지칭한다. 의도적인 LLM 해킹은 간단하게 수행될 수 있으며, 37개의 데이터 주석 작업의 복제를 통해 프롬프트 변형만으로도 통계적으로 유의미한 결과를 얻을 수 있음을 보였다. 또한, 2,361개의 현실적인 가설에 대한 18개의 LLM의 1,300만 개의 라벨 분석 결과, 표준 연구 방식을 따르더라도 우발적인 LLM 해킹의 위험이 높다는 것을 발견했다. 최첨단 LLM의 경우 약 31%, 소규모 언어 모델의 경우 절반의 가설에서 잘못된 결론을 내렸다. 효과 크기가 증가할수록 LLM 해킹 위험이 감소하며, 인간 주석이 거짓 양성을 방지하는 데 중요한 역할을 한다는 것을 확인했다. LLM 해킹을 방지하기 위한 실용적인 권장 사항을 제시한다.

시사점, 한계점

시사점:
LLM의 사용은 사회 과학 연구를 가속화할 수 있지만, 연구자의 선택에 따라 결과가 크게 달라질 수 있다.
의도적인 조작뿐만 아니라, 표준적인 연구 방식을 따르더라도 우발적인 오류가 발생할 수 있다.
LLM의 성능이 향상되어도 해킹 위험은 완전히 사라지지 않는다.
효과 크기가 작을수록 LLM 해킹에 취약하며, 유의미성 임계값 근처에서 LLM 기반 결과를 엄격하게 검증해야 한다.
인간 주석은 거짓 양성을 방지하는 데 효과적이며, 회귀 추정기 보정 기술은 오류 유형 간의 trade-off를 발생시킨다.
LLM 해킹을 방지하기 위한 실질적인 권고 사항이 필요하다.
한계점:
구체적인 LLM 해킹 방지 기법에 대한 상세한 내용은 제시되지 않음.
제시된 완화 기술의 효과에 대한 정량적 분석 부족.
연구가 특정 사회 과학 분야에 국한될 수 있으며, 다른 분야로의 일반화 가능성에 대한 추가 연구 필요.
👍