百炼：全方位模型评测服务介绍

217阅读

0评论

0点赞

百炼提供的模型评测服务旨在确保模型性能与质量，通过多维度评估帮助用户了解模型实际表现并作出最佳选择。评测支持通义千问系列等多种预置模型及其自定义版本，采用人工、自动和基线三种评测方式，流程包括创建任务、执行评测和查看结果。

模型评测简介

模型评测是确保模型性能与质量的关键环节。通过对模型进行多维度评估，可以帮助我们深入了解模型的实际表现，确保其在未来的应用场景中发挥出应有的效能。

模型评测支持以下预置模型及其调优后的自定义版本：

请注意，以上列表可能不完整且会随时间更新，请以创建评测任务页面中显示的模型列表为准。

百炼支持三种评测方式：人工评测、自动评测和基线评测。

人工评测
由业务专家参与，基于选定的评测维度，对模型输出进行人工评价。这种方式的优势在于能够验证输出内容的每个细节及步骤的正确性，但成本较高且效率较低。
自动评测
全程无需人工参与，系统将基于内置的深度学习指标和AI评测器自动评分。这种方式高效且公正，但评测效果依赖于初始设定的评分维度和标准。
基线评测
基于预置的基线评测集（如C-Eval/CMMLU等主流榜单评测集）自动评测模型的基础通用能力，适用于回归评测已微调模型的基本效果，确保模型的通用能力不会下降。

通常建议结合使用这三种评测方式，以获得更全面的评估结果。