Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Subtle Risks, Critical Failures: A Framework for Diagnosing Physical Safety of LLMs for Embodied Decision Making

Created by
  • Haebom

저자

Yejin Son, Minseo Kim, Sungwoong Kim, Seungju Han, Jian Kim, Dongju Jang, Youngjae Yu, Chanyoung Park

개요

본 논문은 구현된 에이전트의 의사결정에 점점 더 많이 사용되는 대규모 언어 모델(LLM)의 물리적 안전성을 체계적으로 평가하기 위한 프레임워크인 SAFEL을 제안합니다. SAFEL은 명령 거부 테스트(Command Refusal Test)를 통해 안전하지 않은 명령을 거부하는 능력과 계획 안전성 테스트(Plan Safety Test)를 통해 안전하고 실행 가능한 계획을 생성하는 능력이라는 두 가지 핵심 역량을 평가합니다. 특히 계획 안전성 테스트는 기능 모듈, 목표 해석, 전이 모델링, 행동 순서 지정으로 분해되어 안전 실패에 대한 세분화된 진단을 가능하게 합니다. 이 프레임워크를 지원하기 위해, 명백히 악의적인 지시와 상황적으로 위험한 지시 모두를 포함하는 942개의 LLM 생성 시나리오를 포함하는 PDDL 기반 벤치마크인 EMBODYGUARD를 소개합니다. 13개의 최첨단 LLM에 대한 평가 결과, 모델은 명백히 안전하지 않은 명령을 거부하는 경우가 많지만 미묘하고 상황적인 위험을 예측하고 완화하는 데 어려움을 겪는다는 것을 보여줍니다.

시사점, 한계점

시사점:
LLM의 물리적 안전성 평가를 위한 체계적인 프레임워크(SAFEL)와 벤치마크(EMBODYGUARD)를 제공합니다.
LLM의 안전 실패에 대한 세분화된 진단을 가능하게 합니다.
현재 LLM의 안전성에 대한 중요한 한계를 강조하고, 안전한 구현 추론의 보다 표적화되고 모듈화된 개선을 위한 기반을 제공합니다.
한계점:
EMBODYGUARD 벤치마크의 포괄성 및 일반화 가능성에 대한 추가적인 연구가 필요합니다.
SAFEL 프레임워크의 평가 지표 및 방법론에 대한 추가적인 검증이 필요합니다.
실제 세계 환경에서의 LLM 안전성 평가에 대한 추가적인 연구가 필요합니다.
👍