Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

When Refusals Fail: Unstable Safety Mechanisms in Long-Context LLM Agents

Created by
  • Haebom
Category
Empty

저자

Tsimur Hadeliya, Mohammad Ali Jauhar, Nidhi Sakpal, Diogo Cruz

개요

복잡하거나 장기적인 문제를 해결하기 위해 대규모 언어 모델(LLM)이 외부 도구를 사용하고 긴 컨텍스트 윈도우에서 작동해야 하는 경우가 많습니다. 새로운 LLM은 더 긴 컨텍스트 윈도우를 지원하고 도구 호출 기능을 지원합니다. 이 연구는 긴 컨텍스트 프롬프트에 대한 LLM의 평가에 주로 초점을 맞춘 이전 연구와 달리, 에이전트 설정의 능력과 안전성 측면을 탐구합니다. LLM 에이전트는 컨텍스트의 길이, 유형 및 위치에 민감하게 반응하여 작업 성능과 유해 요청 실행 거부에서 예상치 못한 일관성 없는 변화를 보일 수 있습니다. 1M-2M 토큰 컨텍스트 윈도우를 가진 모델은 이미 100K 토큰에서 심각한 성능 저하를 보이며, 유해하지 않은 작업과 유해한 작업 모두에서 50% 이상의 성능 감소를 보입니다. 거부율은 예측 불가능하게 변화합니다. 이 연구는 긴 컨텍스트에서 작동하는 에이전트의 잠재적 안전 문제를 보여주고, 긴 다단계 작업에 대한 LLM 에이전트 안전성 평가를 위한 현재 지표와 패러다임에 대한 추가 질문을 제기합니다. 특히, LLM 에이전트에 대한 결과는 유사한 기준에 대한 이전 LLM 평가와 비교하여 능력 및 안전성 성능 모두에서 현저한 차이를 보입니다.

시사점, 한계점

LLM 에이전트의 성능은 컨텍스트 길이, 유형 및 위치에 민감하게 반응합니다.
긴 컨텍스트 윈도우를 가진 LLM 에이전트는 성능 저하를 보입니다.
LLM 에이전트의 거부율은 컨텍스트 길이에 따라 예측 불가능하게 변동합니다.
LLM 에이전트의 안전성에 대한 잠재적인 문제가 제기됩니다.
현재 LLM 에이전트 안전성 평가 지표와 패러다임에 대한 추가 질문을 제기합니다.
LLM 에이전트의 능력 및 안전성 성능이 기존 LLM 평가와 다릅니다.
👍