大多数生成式AI模型的开发任务都需要并行使用加速计算资源。由于很多开发者难以在有限的时间和预算内及时获取可用的计算资源,为此AWS(亚马逊云科技)在re:Invent大会上推出了Amazon SageMaker HyperPod,能够将FM的训练时间缩短高达40%,实现数千个计算资源的并行扩展。
一、Amazon SageMaker HyperPod介绍
AWS推出的Amazon SageMaker HyperPod主要用于帮助开发者或者数据科学家在尽量最短的时间和有限的预算内内训练大模型(FMs),并基于计算资源的可用性,为其节省数周管理训练过程的工作量。
试用地址:AWS官网(注册立享100+免费云产品)
Amazon SageMaker HyperPod训练计划目前已在AWS美国东部(北弗吉尼亚)、美国东部(俄亥俄)、美国西部(俄勒冈)亚马逊云科技区域推出,支持ml.p4d.48xlarge、ml.p5.48xlarge、ml.p5e.48xlarge、ml.p5en.48xlarge和ml.trn2.48xlarge实例,trn2和p5en实例仅在美国东部(俄亥俄)区域提供。
具体操作方法只需几步,且无需人工干预,就可以确定训练完成日期、预算、计算资源需求,制定最优训练计划,并运行完全托管的训练作业。在Amazon SageMaker AI控制台中找到Amazon SageMaker HyperPod、模型训练所需的高性能计算资源,制定最优的训练计划,并根据计算资源的可用性,在不同的容量块中运行训练工作负载。
二、Amazon SageMaker HyperPod训练计划实际应用前往Amazon SageMaker AI控制台中,在左侧导航窗格中选择“训练计划”,然后选择“创建训练计划”。
为Amazon SageMaker HyperPod集群选择首选训练日期和时间、实例类型和数量(这里为10天、16个ml.p5.48xlarge实例),然后点击“查找训练计划”。
Amazon SageMaker HyperPod建议将训练计划分为两个五天时段,包括该计划的预付总费用。
如果打算接受此训练计划,请在下一步中添加训练详情,并选择“创建计划”。
创建训练计划后可以查看训练计划列表。需要在12小时内预付该计划的费用,其中的一项计划处于“激活”状态并已开始执行,所有实例均在使用中,另一项计划安排稍后开始执行,也可以提前提交任务,这些任务将在计划开始时自动启动。
在激活状态下Amazon SageMaker HyperPod中的计算资源才可用,即便资源暂时不可用,之后也会自动恢复可用,并在训练计划结束时自动终止。当前有一个时段正在运行,另一个时段在当前时段结束后继续运行。
整个过程和Amazon SageMaker AI中的Managed Spot训练类似,Managed Spot训练中,Amazon SageMaker AI会处理实例中断问题,且无需人工干预即可继续训练。
相关推荐:
《Dify部署教程:集成Amazon Bedrock开启生成式AI之旅》
《Amazon Bedrock Claude3打造专属AI Character应用教程》
《亚马逊云科技自研芯片Inferentia部署DeepSeek-R1模型教程》
(本文由美国主机侦探原创,转载请注明出处“美国主机侦探”和原文地址!)

微信扫码加好友进群
主机优惠码及时掌握

QQ群号:938255063
主机优惠发布与交流