为什么选择 AWS Glue?
准备数据以获得优质结果是分析或 ML 项目的第一步。AWS Glue 是一项无服务器数据集成服务,可让数据准备更简单、更快、更便宜。您可以发现并连接到 70 多个不同的数据来源,在集中式数据目录中管理您的数据,并以可视化方式创建、运行和监控 ETL 管道以将数据加载到数据湖中。
AWS Glue 的优势
工作原理
AWS Glue 是一项无服务器数据集成服务,它简化了发现、准备、移动和集成来自多个来源的数据以进行分析、机器学习(ML)和应用程序开发的工作。
-
数据集成引擎选项
-
事件驱动型 ETL
-
AWS Glue Data Catalog
-
无代码 ETL 作业
-
管理和监控数据质量
-
数据准备
-
数据集成引擎选项
-
在 AWS Glue 中选择您喜欢的数据集成引擎来支持您的用户和工作负载。
-
事件驱动型 ETL
-
AWS Glue 可以在新数据到达时运行您的提取、转换、加载(ETL)作业。例如,您可以将 AWS Glue 配置为在 Amazon Simple Storage Service(S3)中有新数据可用时立即启动 ETL 作业以运行。
-
AWS Glue Data Catalog
-
您可以使用数据目录快速发现和搜索多个 AWS 数据集,而无需移动数据。数据存入目录后,您可立即使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对其进行搜索和查询。
-
无代码 ETL 作业
-
AWS Glue Studio 可以更轻松地以可视化方式创建、运行和监控 AWS Glue ETL 作业。您可以通过拖放式编辑器构建用于移动和转换数据的 ETL 作业,AWS Glue 会自动生成代码。
-
管理和监控数据质量
-
AWS Glue 数据质量可自动创建、管理和监控数据质量规则,以帮助确保跨数据湖和管道的高质量数据。
-
数据准备
-
使用 AWS Glue DataBrew,您可以直接探索和试验来自数据湖、数据仓库和数据库的数据,包括 Amazon S3、Amazon Redshift、AWS Lake Formation、Amazon Aurora 和 Amazon Relational Database Service (RDS)。您可以在 DataBrew 中从超过 250 个预构建的转换中进行选择,以自动执行数据准备任务、如筛选异常、标准化格式和更正无效值。
使用案例
高效发现数据
快速识别 AWS、本地和其他云端的数据,然后立即将其用于查询和转换。
交互式探索、处理数据以及对其进行实验
借助 AWS Glue 交互式会话,数据工程师可以使用其选择的集成开发环境 (IDE) 或笔记本,以交互方式探索和准备数据。
简化 ETL 管道开发
借助自动预置和工作线程管理,不再需要管理基础设施,并且可将所有数据集成需求合并到单一服务中。
支持各种处理框架和工作负载
更轻松地支持各种数据处理框架,例如 ETL 和 ELT,同时支持各类工作负载,包括批处理、微批处理和流式处理。