Tiny QA Benchmark++ (TQB++)는 대규모 언어 모델(LLM) 파이프라인에 대한 초경량 다국어 스모크 테스트 모음입니다. 몇 초 안에 최소 비용으로 실행되는 단위 테스트 스타일의 안전망 데이터 세트를 제공하여 개발자의 워크플로를 방해하는 무거운 벤치마크를 기다리는 시간을 줄입니다. 52개 항목의 영어 골드 세트(20kB 미만)와 LiteLLM 기반의 작은 합성 데이터 생성기 pypi 패키지를 결합합니다. 이 생성기를 사용하여 사용자는 어떤 언어, 도메인 또는 난이도로든 자체 작은 패키지를 만들 수 있으며, 이미 아랍어, 중국어, 프랑스어, 독일어, 일본어, 한국어, 포르투갈어, 러시아어, 스페인어, 터키어를 포함한 10개의 기성품 패키지가 있습니다. 모든 데이터 세트에는 Croissant 메타데이터와 OpenAI-Evals, LangChain 및 표준 CI 도구를 위한 플러그 앤 플레이 파일이 함께 제공되므로 팀은 GPU 예산에 영향을 주지 않고 결정적 마이크로 벤치마크를 풀 요청 게이트, 프롬프트 엔지니어링 루프 및 프로덕션 대시보드에 직접 배치할 수 있습니다. 전체 TQB++ 실행은 파이프라인 대기 시간에 몇 초만 추가되지만 MMLU 또는 BIG-Bench와 같은 대규모 스위트가 구성을 완료하기 전에 프롬프트 템플릿 오류, 토크나이저 드리프트 및 미세 조정 부작용을 안정적으로 플래그합니다. 전체 프레임워크는 생성 AI 생태계 전반의 지속적이고 자원 효율적인 품질 보증을 가속화하기 위해 공개됩니다.