AWS Glue

发现、准备和集成所有任意规模的数据

为什么选择 AWS Glue？

准备数据以获得优质结果是分析或 ML 项目的第一步。AWS Glue 是一项无服务器数据集成服务，可让数据准备更简单、更快、更便宜。您可以发现并连接到 70 多个不同的数据来源，在集中式数据目录中管理您的数据，并以可视化方式创建、运行和监控 ETL 管道以将数据加载到数据湖中。

AWS Glue 简介（01:54）

AWS Glue 的优势

按需扩展

PB 级、按使用量付费计费、不限数据大小

支持所有工作负载

灵活支持 ETL、ELT、批处理、直播等，无需锁定

一站式

在一项无服务器服务中提供完整的数据集成功能

量身定制的工具

支持从开发人员到企业用户的所有数据用户

工作原理

AWS Glue 是一项无服务器数据集成服务，它简化了发现、准备、移动和集成来自多个来源的数据以进行分析、机器学习（ML）和应用程序开发的工作。

数据集成引擎选项
在 AWS Glue 中选择您喜欢的数据集成引擎来支持您的用户和工作负载。

本图显示 AWS Glue 用户如何从界面选项中进行选择，以使用多个数据集成引擎创建作业工作负载。四个部分显示：一个在左边，两个在中间，一个在右边。

左侧的第一部分称为“Data sources”。它包括以下数据来源：“Amazon S3”、“Amazon DynamoDB”、“Databases running on Amazon EC2”、“Databases”和“SaaS”。

在第一部分，有一个箭头指向图表顶部的中间部分，称为“Choice of interfaces”。第二部分包含三个项目：“AWS Glue Studio”、“Amazon SageMaker notebooks”和“Notebooks and IDEs.”

第二部分下方有一段文字，显示“Open interfaces support interactive and job workloads.” 此文本包括指向其上方先前描述的第二部分的箭头和指向其下方第三部分的箭头。

第三部分称为“Data integration engines”。文本显示“Choose a preferred serverless, scalable data processing engine with automatic scaling and pay-as-you-go pricing”。此部分包括三个引擎名称：“AWS Glue for Ray”、“AWS Glue for Python Shell”和“AWS Glue for Apache Spark”。

第四部分显示在第二部分的右侧，箭头从第二部分指向第四部分。第四部分显示“Create and load data into data lakes and data warehouses”。此部分还包括三个项目：“Amazon Redshift”、“Data lakes”和“Data warehouses”。

单击可放大
事件驱动型 ETL
AWS Glue 可以在新数据到达时运行您的提取、转换、加载（ETL）作业。例如，您可以将 AWS Glue 配置为在 Amazon Simple Storage Service（S3）中有新数据可用时立即启动 ETL 作业以运行。
AWS Glue Data Catalog
您可以使用数据目录快速发现和搜索多个 AWS 数据集，而无需移动数据。数据存入目录后，您可立即使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对其进行搜索和查询。
无代码 ETL 作业
AWS Glue Studio 可以更轻松地以可视化方式创建、运行和监控 AWS Glue ETL 作业。您可以通过拖放式编辑器构建用于移动和转换数据的 ETL 作业，AWS Glue 会自动生成代码。
管理和监控数据质量
AWS Glue 数据质量可自动创建、管理和监控数据质量规则，以帮助确保跨数据湖和管道的高质量数据。

该图显示了如何使用 AWS Glue 数据质量来创建规则建议、监控数据质量以及在数据质量下降时发送警报。三个部分从左至右依次显示。

第一部分描绘了 AWS Glue Data Catalog 和 AWS Glue ETL。AWS Glue Data Catalog 下方显示“Catalog all datasets in your data lakes”。 AWS Glue ETL 下方显示“Integrate and transform data from disparate data sources”。

第二部分标题为“AWS Glue Data Quality”。此部分包含三个图标。第一个图表是一张清单。它的下方显示“Data quality rule recommendations.Get started quickly with automatic data quality rule recommendations”。第二个图标是一支铅笔。它的下方显示“Preconfigured data quality rules.Edit or augment recommendations with preconfigured data quality rules”。第三个图标是一个铃铛。它的下方显示“Alerts and actions.Add alerts and actions to perform when data quality deteriorates”。

第三部分有两个堆叠的图标。第一个图标是一个条形图。它的下方显示“Metrics.Use data quality metrics to make confident business decisions”。第二个图标是一个警告标志。它的下方显示“Alerts.Use alerts to get notified when quality deteriorates, and take actions to fix the data”。

单击可放大
数据准备
使用 AWS Glue DataBrew，您可以直接探索和试验来自数据湖、数据仓库和数据库的数据，包括 Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora 和 Amazon Relational Database Service (RDS)。您可以在 DataBrew 中从超过 250 个预构建的转换中进行选择，以自动执行数据准备任务、如筛选异常、标准化格式和更正无效值。

使用案例

高效发现数据

快速识别 AWS、本地和其他云端的数据，然后立即将其用于查询和转换。

了解有关 AWS Glue Data Catalog 的更多信息

交互式探索、处理数据以及对其进行实验

借助 AWS Glue 交互式会话，数据工程师可以使用其选择的集成开发环境 (IDE) 或笔记本，以交互方式探索和准备数据。

了解有关 AWS Glue 交互式会话的更多信息

简化 ETL 管道开发

借助自动预置和工作线程管理，不再需要管理基础设施，并且可将所有数据集成需求合并到单一服务中。

了解有关 AWS Glue Auto Scaling 的更多信息

支持各种处理框架和工作负载

更轻松地支持各种数据处理框架，例如 ETL 和 ELT，同时支持各类工作负载，包括批处理、微批处理和流式处理。

AWS Glue

AWS Glue 的优势