본 논문은 대규모 언어 모델(LLM)이 기업 환경에서 통합 지식 저장소 및 지능형 어시스턴트로서 활용될 가능성이 증가함에 따라, LLM이 조직의 계층 구조 및 관련 권한에 의해 부과되는 복잡하고 미묘한 제약 조건 내에서 안정적으로 이해하고 작동할 수 있는지 여부에 대한 중요하지만 아직 충분히 탐구되지 않은 과제를 제기한다. 실제 기업 데이터 및 접근 제어 정책의 독점적이고 민감한 특성으로 인해 이 중요한 기능을 평가하는 것은 본질적으로 어렵다. 따라서 본 논문에서는 다양한 조직 역할 및 수준에서 일반적으로 관련되는 40가지 유형의 권한으로 구성된 합성적이지만 대표적인 OrgAccess 벤치마크를 제시한다. 40,000개의 쉬운(1개 권한), 10,000개의 중간(3개 권한 튜플), 20,000개의 어려운(5개 권한 튜플) 세 가지 유형의 권한을 생성하여 LLM이 지정된 계층적 규칙을 엄격하게 준수하는 응답을 생성하고, 특히 중복되거나 상충되는 권한이 있는 사용자와 관련된 시나리오에서 권한을 정확하게 평가할 수 있는 능력을 테스트한다. 연구 결과, 최첨단 LLM조차도 명시적인 지침이 있더라도 역할 기반 구조를 준수하는 데 어려움을 겪고 있으며, 두 개 이상의 상충되는 권한이 있는 상호 작용을 탐색할 때 성능이 더욱 저하됨을 보여준다. 특히 GPT-4.1의 경우 가장 어려운 벤치마크에서 F1 점수가 0.27에 불과하다. 이는 표준 사실 기반 또는 STEM 기반 벤치마크를 넘어서는 LLM의 복잡한 규칙 준수 및 구성적 추론 기능의 중요한 한계를 보여주며, 실제 구조화된 환경에 대한 적합성을 평가하기 위한 새로운 패러다임을 제시한다.