如何利用AWS提高大模型训练速度

大多数生成式AI模型的开发任务都需要并行使用加速计算资源。由于很多开发者难以在有限的时间和预算内及时获取可用的计算资源，为此AWS（亚马逊云科技）在re:Invent大会上推出了Amazon SageMaker HyperPod，能够将FM的训练时间缩短高达40%，实现数千个计算资源的并行扩展。

一、Amazon SageMaker HyperPod介绍

AWS推出的Amazon SageMaker HyperPod主要用于帮助开发者或者数据科学家在尽量最短的时间和有限的预算内内训练大模型（FMs），并基于计算资源的可用性，为其节省数周管理训练过程的工作量。

试用地址：AWS官网（注册立享100+免费云产品）

Amazon SageMaker HyperPod训练计划目前已在AWS美国东部（北弗吉尼亚）、美国东部（俄亥俄）、美国西部（俄勒冈）亚马逊云科技区域推出，支持ml.p4d.48xlarge、ml.p5.48xlarge、ml.p5e.48xlarge、ml.p5en.48xlarge和ml.trn2.48xlarge实例，trn2和p5en实例仅在美国东部（俄亥俄）区域提供。

具体操作方法只需几步，且无需人工干预，就可以确定训练完成日期、预算、计算资源需求，制定最优训练计划，并运行完全托管的训练作业。在Amazon SageMaker AI控制台中找到Amazon SageMaker HyperPod、模型训练所需的高性能计算资源，制定最优的训练计划，并根据计算资源的可用性，在不同的容量块中运行训练工作负载。