亚马逊云科技

广告

安信SSL证书

广告

亚马逊免费云服务器Amazon EC2启动并运行Amazon EMR集群教程

美国云服务器推荐

Amazon EMR主要提供托管式Hadoop框架,让用户能够更轻松、快速、经济高效地处理可动态扩展的Amazon EC2实例中的海量数据,还可以在EMR中运行Apache Spark、HBase、Presto和Flink等其他主流分布式框架。本文将详细介绍如何在在Amazon EC2 Spot实例上启动并运行一个Amazon EMR集群。

亚马逊云科技官网:点击直达免费试用高达12个月Amazon EC2

关于Amazon EC2 Spot:提供可在AWS云中使用的备用计算容量,而且与按需型实例的价格相比,更经济实惠。当Amazon EC2需要收回容量时,EC2可能会在两分钟的通知时间内中断Spot实例。可以将Spot实例用于各类具有容错性、灵活性的应用程序。例如分析、容器化工作负载、高性能计算 (HPC)、无状态Web服务器、渲染、CI/CD以及其他测试和开发工作负载。

关于Amazon EMR:支持与Amazon S3和Amazon DynamoDB等其他AWS数据存储中的数据交互。EMR Notebooks基于流行的Jupyter Notebook,为即席查询和探索性分析提供开发和协作环境。此外Amazon EMR 为广泛的大数据使用场景提供安全可靠的数据处理能力,包括日志分析、Web索引、数据 ETL、机器学习、财务分析、科学模拟和生物信息数据处理。

下面开始步入本篇教程的主题:

一、使用高级设置创建Amazon EMR集群

1、打开浏览器并导航到Amazon EMR控制台,或者搜索EMR,也可以在AWS管理控制台首页的 Analytics(分析)区域下找到Amazon EMR。如果已有AWS账户请直接登录控制台。否则请阅读:

2、在页面右上角,选择您要启动Amazon EMR集群的区域。

使用高级设置创建Amazon EMR集群

3、在Amazon EMR控制台页面中,点击 Create cluster(创建集群)。

使用高级设置创建Amazon EMR集群

4、在Create cluster(创建集群)窗口中,点击Go to advanced options(前往高级选项)。

使用高级设置创建Amazon EMR集群

二、配置Amazon EMR集群软件和步骤

21、在Software Configuration(软件配置)区域,选择集群所需的软件,或使用默认选项快速开始。

配置Amazon EMR集群软件和步骤

2、(可选)输入连接AWS Glue Data Catalog所需的配置信息以及配置集群软件所需的配置文件。

取消勾选 Use multiple master nodes to improve cluster availability(使用多个主节点提高集群可用性)选项,因为该选项与我们将在后续步骤中配置的实例集不兼容。

配置Amazon EMR集群软件和步骤

3、(可选)配置您希望集群预配完成后执行的所有步骤 (step)。也可以跳过此步骤,更快完成启动集群实验。

配置Amazon EMR集群软件和步骤

4、检查并确认软件配置后,就可以执行下一步:配置集群硬件。点击 Next(下一步)以继续。

配置Amazon EMR集群软件和步骤

三、配置Amazon EMR实例集

1、选择 Instance group configuration(实例组配置)下的Instance fleets(实例集)。

我们可以通过实例集实现实例多样化。这是使用 EC2 Spot 实例的一个好方法。实例多样化,即可以使用多种实例类型,确保Amazon EMR可以为集群分配所需的容量,同时又能自动处理节点中断问题。

配置Amazon EMR实例集

2、选择要部署 Amazon EMR 集群的 VPC 以及一个或多个子网。建议选择多个可用区。您的集群将部署在单个可用区中,但若选择了多个可用区,Amazon EMR 会检查所有选定的可用区中的可用资源,在具有最多 EC2 Spot 容量的可用区中部署并运行您的集群。

配置Amazon EMR实例集

3、按需配置Root device EBS volume size(根设备EBS卷大小),或保留默认设置。

配置Amazon EMR实例集

4、向下滚动至Task instance fleet(任务实例集)部分,选择 Add/remove instance types to fleet(在实例集中添加/删除实例类型)。

可以为每个实例集指定多种实例类型。最多可以指定五种。这样,Amazon EMR就可以从多个可用 EC2 Spot 容量池中预配容量。

如果要启动工作负载的持续时间不是非常短暂,我们建议主节点和核心节点使用按需型实例。

配置Amazon EMR实例集

5、选择要在任务节点实例集中使用的实例类型。最多可以选择五种。强烈建议选择多个实例系列中 vCPU 和内存比相近的实例类型。

配置Amazon EMR实例集

6、配置实例集的按需型实例单位数量和Spot实例单位数量,也可以选择配置每种实例类型的单位数量。

按需型实例单位数量和 Spot 实例单位数量越大,则集群预配的容量越大。此次实验中,为了快速开始并降低本实验成本,我们建议仅部署少许 Spot 实例(例如 8 个单位),不部署按需型实例;

默认情况下,每种实例类型的单位数量与该实例类型的 vCore 数量一致。您可以按需进行此配置,赋予某些实例类型更高权重。当 Amazon EMR 满足实例集的容量需求时,则会根据权重配置。

还可以指定按需型实例或亚马逊云服务器实例的单位数量。这样,可以组合使用多种实例类型和购买选项,从而实现实例多样化,以满足集群所需的容量。

配置Amazon EMR实例集

7、(可选)为集群配置 defined duration(定义时长)和 provisioning timeout(预配超时)行为。通过预配超时设置,可以定义 Amazon EMR 无法为您的实例集预配容量时集群的行为。默认行为是 Terminate(终止),不过,也可以选择在超时后尝试为集群预配按需型实例,而非 Spot 实例。

8、检查并确认硬件配置后,就可以执行下一步:配置基本集群设置。点击 Next(下一步)。

配置Amazon EMR实例集

四、配置基本Amazon EMR集群设置

1、自定义集群名称或使用默认名称 My cluster。

(可选)启动 Logging(日志记录)、Debugging(调试)和 Termination protection(终止保护)功能。

配置基本Amazon EMR集群设置

2、(可选)为集群配置相关标签。标签有助于确定集群所属团队或集群所属环境。

配置基本Amazon EMR集群设置

3、(可选)配置所需的其他选项,例如 EMRFS consistent view(EMRFS 一致视图)、Custom AMI ID(自定义 AMI ID)或 Bootstrap Actions(引导操作)。

集群配置相关标签

4、检查并确认集群基本设置后,就可以执行下一步:配置集群安全设置。点击 Next(下一步)。

配置基本Amazon EMR集群设置

五、安全设置

1、(可选)配置集群所需的安全选项,包括密钥对、实例角色和配置文件、安全组以及加密。

安全设置

2、检查并确认安全配置后,就可以创建集群了。点击 Create cluster(创建集群),启动运行在EC2 Spot实例上的新Amazon EMR集群。

安全设置

现在已经启动了一个运行在Amazon EC2 Spot 实例上的Amazon EMR集群。

相关阅读:

亚马逊免费云服务器Amazon EC2 T4g/x86领取及配置教程

亚马逊云服务器Amazon EC2快速搭建Odoo电商网站(图文教程)

亚马逊云服务器Amazon EC2快速部署NebulaGraph教程

(本文由美国主机侦探原创,转载请注明出处“美国主机侦探”和原文地址!)

主机侦探企业微信

微信扫码加好友进群

主机优惠码及时掌握

主机侦探QQ群

QQ群号:938255063

主机优惠发布与交流

温馨提示:

1、本站部分图片来源于互联网,如有侵权请联系删除。邮箱:2942802716#qq.com(#改为@)

2、本文评论没有专人回复,如果您有问题请到美国主机侦探论坛提问!

3、美国主机侦探免费为您提供美国主机购买咨询。

RAKsmart美国服务器
下一篇
使用高级设置创建Amazon EMR集群
已经没有了
返回顶部