阿里云人工智能平台 PAI新功能/规格:DLC:高效利用闲时资源,优化分布式训练体验!

125阅读
0评论
0点赞

DLC推出新特性,智能利用系统闲时资源进行分布式训练,提高计算资源利用率,尤其适合大型模型研发机构和初创公司。通过闲时计算任务和自动续跑功能,确保训练过程的连续性和效率,降低资源浪费。

DLC:优化算力利用,实现高效分布式训练

DLC(Distributed Learning Cluster)现推出一项创新特性,允许用户利用系统闲时资源提交训练任务,从而最大化计算资源的利用率。

  • 目标用户

此功能主要面向AI领域的大型模型研发机构和初创公司,旨在帮助他们更有效地利用计算资源。

  • 新增功能与规格
  1. 闲时计算任务

DLC现在能够智能识别并利用当前或任何资源配额下的闲置计算资源。这些闲时计算任务在运行时,如果其所借用的空闲资源被其原始配额的计算任务需要,任务将自动终止,无条件归还资源。这一设计确保了资源的有效分配和利用。

  1. 自动续跑与避免浪费

结合PAI平台的AIMaster和EasyCKPT功能,闲时计算任务能自动提升任务的续跑能力,防止因算力中断导致的资源浪费。这种无缝切换和恢复机制保证了训练过程的连续性,同时也提高了整体效率。

  • 文档参考

详细了解DLC如何利用闲时资源,请查阅产品文档

通过DLC,我们致力于提供一个更加智能、高效且经济的训练环境,让您的AI开发之旅更加顺畅。

查看详细:人工智能平台 PAI

评论(0)
暂无评论,期待您的发言...
发表评论
阿狸体验员
阿狸体验员
这家伙很懒,什么也没写~
文章
158
动态
187
加入时间
9月前