亚马逊云科技推出最新无服务器服务Amazon Glue 5.0

最近，亚马逊云科技正式推出了Amazon Glue 5.0。它可以帮助用户提高性能、增强安全性，并支持Amazon SageMaker融通式合作开发工作室和Sagemaker Lakehouse等。现已在由光环新网运营的亚马逊云科技中国（北京）区域和由西云数据运营的亚马逊云科技中国（宁夏）区域中正式推出。

亚马逊云科技官网：点击访问（注册立享100+AWS免费云产品）

一、Amazon Glue介绍

Amazon Glue是一项无服务器数据集成服务，可以让用户轻松发现、准备和合并数据，以便进行分析、机器学习和应用程序开发。Amazon Glue提供有数据集成所需的所有功能，从而让用户只需几分钟而不是几个月即可开始分析用户的数据并即可将其付诸使用。

Amazon Glue提供有可视化和基于代码的界面，可以让数据集成更加轻松。用户可以使用Amazon Glue数据目录轻松查找和访问数据。数据工程师和ETL（提取、转换和加载）开发人员可以创建并运行ETL工作流程。

Amazon Glue现推出免费Amazon Glue服务，套餐内配置：100万个对象存储在AWS Glue数据目录中、每月向AWS Glue数据目录发出100万个请求，永久免费使用。新用户注册亚马逊云科技账户，即可免费使用。

相关推荐：《亚马逊云科技账号注册流程图解》

此次推出的Amazon Glue 5.0将引擎升级到Apache Spark 3.5.2、Python 3.11和Java 17，并进行了新的性能和安全性改进。Glue 5.0更新了对Apache Hudi 0.15.0、Apache Iceberg 1.6.1和Delta Lake 3.2.0的开放表格式支持，因此用户可以处理数据湖中有关性能、成本、治理和隐私的高级应用场景。Amazon Glue 5.0通过Amazon Lake Formation添加了Spark原生精细访问控制，因此用户可以在Amazon S3数据湖上应用表、列、行和单元格级权限。最后，Glue 5.0增加了对Sagemaker Lakehouse的支持，进而统一用户在Amazon S3数据湖和Amazon Redshift数据仓库中的所有数据。

二、Amazon Glue工作原理介绍

1、构建事件驱动的ETL管道

当新数据到来时，Amazon Glue可以运行用户的ETL作业。

例如，用户可以使用Amazon Lambda函数来触发ETL作业，以在Amazon S3中有新数据可用时立即运行，同时用户还可以将这个新数据集注册到Amazon Glue Data Catalog中，作为ETL作业的一部分。

2、跨多个数据存储查找数据

用户可以使用Amazon Glue Data Catalog快速发现和搜索多个Amazon数据集，而无需移动数据。在存储到目录中之后，数据立即可供使用Amazon Athena、Amazon EMR和Amazon Redshift Spectrum进行搜索和查询。

3、自助式可视化数据准备

Amazon Glue DataBrew使用户能够直接从数据湖、数据仓库和数据库（包括Amazon S3、Amazon Redshift、Amazon Lake Formation、Amazon Aurora和Amazon RDS）中探索和试验数据。此外，还可以从Amazon Glue DataBrew中的250多种预构建转换中进行选择，以自动执行数据准备任务，例如筛选异常、标准化格式和纠正无效值。数据准备就绪后，用户就可以立即将其用于分析和机器学习。