본 논문은 대규모 언어 모델(LLM)이 기업 환경에서 계층적 구조와 역할 기반 접근 제어(RBAC)를 준수하며 작동할 수 있는지 평가하기 위한 새로운 벤치마크인 OrgAccess를 제시합니다. OrgAccess는 다양한 조직의 역할과 수준에 일반적으로 관련된 40가지 유형의 권한으로 구성되며, 난이도에 따라 세 가지 유형(쉬움, 중간, 어려움)의 권한 집합을 제공합니다. 실험 결과, 최첨단 LLM인 GPT-4.1조차도 가장 어려운 벤치마크에서 F1-Score 0.27에 그치는 등 복잡한 규칙 준수 및 구성적 추론 능력에 한계를 보였습니다. 이는 LLM의 실제 구조화된 환경 적용 가능성에 대한 새로운 평가 기준을 제시합니다.