百炼:全方位模型评测服务介绍

18阅读
0评论
0点赞

百炼提供的模型评测服务旨在确保模型性能与质量,通过多维度评估帮助用户了解模型实际表现并作出最佳选择。评测支持通义千问系列等多种预置模型及其自定义版本,采用人工、自动和基线三种评测方式,流程包括创建任务、执行评测和查看结果。

模型评测简介

模型评测是确保模型性能与质量的关键环节。通过对模型进行多维度评估,可以帮助我们深入了解模型的实际表现,确保其在未来的应用场景中发挥出应有的效能。

为何进行模型评测

  1. 筛选最适配业务的模型
    从众多模型中挑选出最适合特定业务需求的模型并非易事。模型评测能帮助快速对比不同模型的表现,找到最佳选项。

  2. 验证模型调优成果
    随着模型不断调优与迭代,其性能也会发生变化。模型评测能帮助我们检验这些变化,并据此调整后续的调优策略。

  3. 预防潜在风险
    通过模型评测,可以提前发现模型可能带来的政治敏感、违法犯罪、歧视偏见等方面的风险,并采取相应措施加以规避。

支持的模型

模型评测支持以下预置模型及其调优后的自定义版本:

  • 通义千问系列(Max/Plus/Turbo)
  • 通义千问开源版(Qwen2、Qwen1.5、Qwen)
  • 通义法睿
  • 第三方文本生成模型(如ChatGLM3、LLaMa3、Yi-Medium等)

请注意,以上列表可能不完整且会随时间更新,请以创建评测任务页面中显示的模型列表为准。

评测方式

百炼支持三种评测方式:人工评测、自动评测和基线评测。

  1. 人工评测
    由业务专家参与,基于选定的评测维度,对模型输出进行人工评价。这种方式的优势在于能够验证输出内容的每个细节及步骤的正确性,但成本较高且效率较低。

  2. 自动评测
    全程无需人工参与,系统将基于内置的深度学习指标和AI评测器自动评分。这种方式高效且公正,但评测效果依赖于初始设定的评分维度和标准。

  3. 基线评测
    基于预置的基线评测集(如C-Eval/CMMLU等主流榜单评测集)自动评测模型的基础通用能力,适用于回归评测已微调模型的基本效果,确保模型的通用能力不会下降。

通常建议结合使用这三种评测方式,以获得更全面的评估结果。

模型评测流程

  1. 创建模型评测任务
    根据评测目标设定评测维度和准备评测集。对于基线评测任务,使用内置的主流榜单评测集即可。

  2. 执行模型评测任务
    采用人工评测时,需根据选定的评测维度对模型输出进行人工评价;自动评测和基线评测则由系统自动执行。

  3. 查看模型评测结果
    结果将为后续的数据驱动决策和模型优化提供指导。

计费说明

  • 对独立部署完成的模型进行评测,不再额外计费。
  • 使用预置模型进行评测,则按Tokens消耗量计费。具体费用计算公式如下:
    • 评测费用 = 模型输入Tokens × 输入单价 + 模型输出Tokens × 输出单价
  • 详细单价请参考模型列表
  • 更多关于模型评测计费的信息,请参见产品计费

开始进行模型评测

点击创建模型评测任务,开始您的模型评测之旅。

评论(0)
暂无评论,期待您的发言...
发表评论