본 논문은 상용 불투명 대규모 언어 모델 서비스(COLS)의 책임성 문제를 다룹니다. COLS는 다단계 추론 및 다중 에이전트 협업과 같은 복잡하고 추상적인 작업을 통해 고품질 출력을 생성하지만, 사용자는 토큰 소비 및 API 사용량에 따라 요금을 지불하며 내부 단계는 일반적으로 보이지 않습니다. 이 논문에서는 사용자가 관찰, 검증 또는 이의를 제기할 수 없는 작업에 대해 요금이 청구되는 COLS의 책임성 문제를 강조합니다. 특히 토큰 및 호출 수가 인위적으로 과장될 수 있는 '양적 팽창'과 제공자가 비용이 저렴한 모델이나 도구를 몰래 대체할 수 있는 '품질 저하'라는 두 가지 주요 위험을 공식화합니다. 이러한 위험을 해결하기 위해 약속 기반, 예측 기반, 행동 기반 및 서명 기반 방법을 포함한 다양한 감사 전략이 필요하며, 워터마킹 및 신뢰할 수 있는 실행 환경과 같은 보완 메커니즘을 통해 검증 가능성을 향상시킬 수 있다고 제시합니다. 또한, 독점적인 내부 정보를 노출하지 않고 실행, 안전한 로깅 및 사용자에게 보이는 감사 기능 전반에 걸쳐 신뢰할 수 있는 검증을 가능하게 하는 COLS 및 사용자를 위한 3계층 모듈식 감사 프레임워크를 제안합니다. 궁극적으로 상용 LLM 서비스의 투명성, 감사 가능성 및 책임성을 향상시키기 위한 추가 연구 및 정책 개발을 촉구합니다.