Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

OrgAccess: A Benchmark for Role Based Access Control in Organization Scale LLMs

Created by
  • Haebom

저자

Debdeep Sanyal, Umakanta Maharana, Yash Sinha, Hong Ming Tan, Shirish Karande, Mohan Kankanhalli, Murari Mandal

개요

본 논문은 대규모 언어 모델(LLM)이 기업 환경에서 통합 지식 저장소 및 지능형 어시스턴트로서 활용될 가능성이 증가함에 따라, LLM이 조직의 계층 구조 및 관련 권한에 의해 부과되는 복잡하고 미묘한 제약 조건 내에서 안정적으로 이해하고 작동할 수 있는지 여부에 대한 중요하지만 아직 충분히 탐구되지 않은 과제를 제기한다. 실제 기업 데이터 및 접근 제어 정책의 독점적이고 민감한 특성으로 인해 이 중요한 기능을 평가하는 것은 본질적으로 어렵다. 따라서 본 논문에서는 다양한 조직 역할 및 수준에서 일반적으로 관련되는 40가지 유형의 권한으로 구성된 합성적이지만 대표적인 OrgAccess 벤치마크를 제시한다. 40,000개의 쉬운(1개 권한), 10,000개의 중간(3개 권한 튜플), 20,000개의 어려운(5개 권한 튜플) 세 가지 유형의 권한을 생성하여 LLM이 지정된 계층적 규칙을 엄격하게 준수하는 응답을 생성하고, 특히 중복되거나 상충되는 권한이 있는 사용자와 관련된 시나리오에서 권한을 정확하게 평가할 수 있는 능력을 테스트한다. 연구 결과, 최첨단 LLM조차도 명시적인 지침이 있더라도 역할 기반 구조를 준수하는 데 어려움을 겪고 있으며, 두 개 이상의 상충되는 권한이 있는 상호 작용을 탐색할 때 성능이 더욱 저하됨을 보여준다. 특히 GPT-4.1의 경우 가장 어려운 벤치마크에서 F1 점수가 0.27에 불과하다. 이는 표준 사실 기반 또는 STEM 기반 벤치마크를 넘어서는 LLM의 복잡한 규칙 준수 및 구성적 추론 기능의 중요한 한계를 보여주며, 실제 구조화된 환경에 대한 적합성을 평가하기 위한 새로운 패러다임을 제시한다.

시사점, 한계점

시사점:
LLM의 역할 기반 접근 제어(RBAC) 준수 능력에 대한 새로운 벤치마크(OrgAccess) 제시
최첨단 LLM조차도 복잡한 권한 구조와 상충되는 권한 처리에 어려움을 겪는다는 사실 규명
LLM의 실제 환경 적용을 위한 새로운 평가 기준 및 방향 제시
LLM의 복잡한 규칙 준수 및 구성적 추론 능력의 한계를 보여줌
한계점:
OrgAccess 벤치마크는 합성 데이터 기반으로 실제 기업 환경의 복잡성을 완전히 반영하지 못할 수 있음
특정 LLM에 대한 평가 결과이며, 다른 LLM이나 향후 발전된 모델의 성능은 다를 수 있음
벤치마크의 난이도 설정 및 평가 지표에 대한 추가적인 검토 필요
👍