本文重点关注大规模语言模型(LLM)的评估,尤其是在商业场景中。为了解决现有人工评估方法的低效性,我们提出了TALEC,这是一种基于模型的评估方法,允许应用用户定义的评估标准。TALEC利用上下文学习(ICL)来训练判断模型的内部标准,并结合零样本评估和少样本评估来关注更多信息。此外,我们提出了一种有效的提示范式和工程方法来提升判断模型的准确率。实验结果表明,TALEC与人工评估的相关性超过80%,并且在某些任务中,其表现优于人际相关性。我们还展示了ICL可以作为微调的替代方案的结果。代码可在GitHub上获取。