阿里云人工智能平台 PAI新功能/规格:DLC:高效利用闲时资源,优化分布式训练体验!
125阅读
0评论
0点赞
DLC推出新特性,智能利用系统闲时资源进行分布式训练,提高计算资源利用率,尤其适合大型模型研发机构和初创公司。通过闲时计算任务和自动续跑功能,确保训练过程的连续性和效率,降低资源浪费。
DLC:优化算力利用,实现高效分布式训练
DLC(Distributed Learning Cluster)现推出一项创新特性,允许用户利用系统闲时资源提交训练任务,从而最大化计算资源的利用率。
- 目标用户
此功能主要面向AI领域的大型模型研发机构和初创公司,旨在帮助他们更有效地利用计算资源。
- 新增功能与规格
- 闲时计算任务
DLC现在能够智能识别并利用当前或任何资源配额下的闲置计算资源。这些闲时计算任务在运行时,如果其所借用的空闲资源被其原始配额的计算任务需要,任务将自动终止,无条件归还资源。这一设计确保了资源的有效分配和利用。
- 自动续跑与避免浪费
结合PAI平台的AIMaster和EasyCKPT功能,闲时计算任务能自动提升任务的续跑能力,防止因算力中断导致的资源浪费。这种无缝切换和恢复机制保证了训练过程的连续性,同时也提高了整体效率。
- 文档参考
详细了解DLC如何利用闲时资源,请查阅产品文档。
通过DLC,我们致力于提供一个更加智能、高效且经济的训练环境,让您的AI开发之旅更加顺畅。
查看详细:人工智能平台 PAI
评论(0)
暂无评论,期待您的发言...
发表评论