Amazon EMR主要提供托管式Hadoop框架,让用户能够更轻松、快速、经济高效地处理可动态扩展的Amazon EC2实例中的海量数据,还可以在EMR中运行Apache Spark、HBase、Presto和Flink等其他主流分布式框架。本文将详细介绍如何在在Amazon EC2 Spot实例上启动并运行一个Amazon EMR集群。
亚马逊云科技官网:点击直达(免费试用高达12个月Amazon EC2)
关于Amazon EC2 Spot:提供可在AWS云中使用的备用计算容量,而且与按需型实例的价格相比,更经济实惠。当Amazon EC2需要收回容量时,EC2可能会在两分钟的通知时间内中断Spot实例。可以将Spot实例用于各类具有容错性、灵活性的应用程序。例如分析、容器化工作负载、高性能计算 (HPC)、无状态Web服务器、渲染、CI/CD以及其他测试和开发工作负载。
关于Amazon EMR:支持与Amazon S3和Amazon DynamoDB等其他AWS数据存储中的数据交互。EMR Notebooks基于流行的Jupyter Notebook,为即席查询和探索性分析提供开发和协作环境。此外Amazon EMR 为广泛的大数据使用场景提供安全可靠的数据处理能力,包括日志分析、Web索引、数据 ETL、机器学习、财务分析、科学模拟和生物信息数据处理。
下面开始步入本篇教程的主题:
一、使用高级设置创建Amazon EMR集群
1、打开浏览器并导航到Amazon EMR控制台,或者搜索EMR,也可以在AWS管理控制台首页的 Analytics(分析)区域下找到Amazon EMR。如果已有AWS账户请直接登录控制台。否则请阅读:
2、在页面右上角,选择您要启动Amazon EMR集群的区域。
3、在Amazon EMR控制台页面中,点击 Create cluster(创建集群)。
4、在Create cluster(创建集群)窗口中,点击Go to advanced options(前往高级选项)。
21、在Software Configuration(软件配置)区域,选择集群所需的软件,或使用默认选项快速开始。
2、(可选)输入连接AWS Glue Data Catalog所需的配置信息以及配置集群软件所需的配置文件。
取消勾选 Use multiple master nodes to improve cluster availability(使用多个主节点提高集群可用性)选项,因为该选项与我们将在后续步骤中配置的实例集不兼容。
3、(可选)配置您希望集群预配完成后执行的所有步骤 (step)。也可以跳过此步骤,更快完成启动集群实验。
4、检查并确认软件配置后,就可以执行下一步:配置集群硬件。点击 Next(下一步)以继续。
1、选择 Instance group configuration(实例组配置)下的Instance fleets(实例集)。
我们可以通过实例集实现实例多样化。这是使用 EC2 Spot 实例的一个好方法。实例多样化,即可以使用多种实例类型,确保Amazon EMR可以为集群分配所需的容量,同时又能自动处理节点中断问题。
2、选择要部署 Amazon EMR 集群的 VPC 以及一个或多个子网。建议选择多个可用区。您的集群将部署在单个可用区中,但若选择了多个可用区,Amazon EMR 会检查所有选定的可用区中的可用资源,在具有最多 EC2 Spot 容量的可用区中部署并运行您的集群。
3、按需配置Root device EBS volume size(根设备EBS卷大小),或保留默认设置。
4、向下滚动至Task instance fleet(任务实例集)部分,选择 Add/remove instance types to fleet(在实例集中添加/删除实例类型)。
可以为每个实例集指定多种实例类型。最多可以指定五种。这样,Amazon EMR就可以从多个可用 EC2 Spot 容量池中预配容量。
如果要启动工作负载的持续时间不是非常短暂,我们建议主节点和核心节点使用按需型实例。
5、选择要在任务节点实例集中使用的实例类型。最多可以选择五种。强烈建议选择多个实例系列中 vCPU 和内存比相近的实例类型。
6、配置实例集的按需型实例单位数量和Spot实例单位数量,也可以选择配置每种实例类型的单位数量。
按需型实例单位数量和 Spot 实例单位数量越大,则集群预配的容量越大。此次实验中,为了快速开始并降低本实验成本,我们建议仅部署少许 Spot 实例(例如 8 个单位),不部署按需型实例;
默认情况下,每种实例类型的单位数量与该实例类型的 vCore 数量一致。您可以按需进行此配置,赋予某些实例类型更高权重。当 Amazon EMR 满足实例集的容量需求时,则会根据权重配置。
还可以指定按需型实例或亚马逊云服务器实例的单位数量。这样,可以组合使用多种实例类型和购买选项,从而实现实例多样化,以满足集群所需的容量。
7、(可选)为集群配置 defined duration(定义时长)和 provisioning timeout(预配超时)行为。通过预配超时设置,可以定义 Amazon EMR 无法为您的实例集预配容量时集群的行为。默认行为是 Terminate(终止),不过,也可以选择在超时后尝试为集群预配按需型实例,而非 Spot 实例。
8、检查并确认硬件配置后,就可以执行下一步:配置基本集群设置。点击 Next(下一步)。
1、自定义集群名称或使用默认名称 My cluster。
(可选)启动 Logging(日志记录)、Debugging(调试)和 Termination protection(终止保护)功能。
2、(可选)为集群配置相关标签。标签有助于确定集群所属团队或集群所属环境。
3、(可选)配置所需的其他选项,例如 EMRFS consistent view(EMRFS 一致视图)、Custom AMI ID(自定义 AMI ID)或 Bootstrap Actions(引导操作)。
4、检查并确认集群基本设置后,就可以执行下一步:配置集群安全设置。点击 Next(下一步)。
1、(可选)配置集群所需的安全选项,包括密钥对、实例角色和配置文件、安全组以及加密。
2、检查并确认安全配置后,就可以创建集群了。点击 Create cluster(创建集群),启动运行在EC2 Spot实例上的新Amazon EMR集群。
现在已经启动了一个运行在Amazon EC2 Spot 实例上的Amazon EMR集群。
相关阅读:
《亚马逊免费云服务器Amazon EC2 T4g/x86领取及配置教程》
《亚马逊云服务器Amazon EC2快速搭建Odoo电商网站(图文教程)》
《亚马逊云服务器Amazon EC2快速部署NebulaGraph教程》
(本文由美国主机侦探原创,转载请注明出处“美国主机侦探”和原文地址!)

微信扫码加好友进群
主机优惠码及时掌握

QQ群号:938255063
主机优惠发布与交流