Tại sao nên sử dụng AWS Glue?
Chuẩn bị dữ liệu để thu được kết quả chất lượng là bước đầu tiên của một dự án phân tích hoặc ML. AWS Glue là một dịch vụ tích hợp dữ liệu phi máy chủ, giúp hoạt động chuẩn bị dữ liệu trở nên đơn giản, nhanh chóng và tiết kiệm hơn. Bạn có thể khám phá và kết nối với hơn 70 nguồn dữ liệu đa dạng, quản lý dữ liệu của mình trong một danh mục dữ liệu tập trung, đồng thời tạo, chạy và theo dõi quy trình ETL một cách trực quan để tải dữ liệu của bạn vào các hồ dữ liệu.
Giới thiệu về AWS Glue (01:54)

Lợi ích của AWS Glue

Khả năng tích hợp dữ liệu đầy đủ qua dịch vụ phi máy chủ
Hỗ trợ tất cả người dùng dữ liệu từ nhà phát triển đến người dùng doanh nghiệp
Quy mô petabyte, thanh toán theo mức sử dụng, mọi kích thước dữ liệu
Hỗ trợ linh hoạt cho ETL, ELT, lô, hoạt động phát trực tuyến và nhiều hoạt động khác mà không bị ràng buộc

Cách thức hoạt động

AWS Glue là một dịch vụ tích hợp dữ liệu phi máy chủ, giúp người dùng dễ dàng khám phá, chuẩn bị, di chuyển và tích hợp dữ liệu từ nhiều nguồn cho hoạt động phân tích, máy học (ML) và phát triển ứng dụng.

  • Các tùy chọn về công cụ tích hợp dữ liệu
  • Chọn công cụ tích hợp dữ liệu bạn muốn trong AWS Glue để hỗ trợ người dùng và khối lượng công việc.

    Sơ đồ thể hiện các tùy chọn về công cụ xử lý dữ liệu cho AWS Glue.
  • ETL định hướng theo sự kiện
  • AWS Glue có thể chạy các tác vụ trích xuất, chuyển đổi và tải (ETL) của bạn khi có dữ liệu mới. Ví dụ: bạn có thể cấu hình AWS Glue để khởi chạy các tác vụ ETL ngay khi dữ liệu mới xuất hiện trong Dịch vụ lưu trữ đơn giản (S3) của Amazon.

    Sơ đồ minh họa cách AWS Glue có thể chạy các tác vụ ETL khi có dữ liệu mới.
  • Danh mục dữ liệu AWS Glue
  • Bạn có thể sử dụng Danh mục dữ liệu để khám phá nhanh và tìm kiếm nhiều tập dữ liệu AWS mà không phải di chuyển dữ liệu. Một khi đã được lập danh mục, dữ liệu sẽ ngay lập tức có sẵn để tìm kiếm và truy vấn bằng Amazon Athena, Amazon EMR và Amazon Redshift Spectrum.

    Sơ đồ minh họa việc khám phá và tìm kiếm các tập dữ liệu bằng Danh mục dữ liệu mà không phải di chuyển dữ liệu.
  • Tác vụ ETL không cần mã
  • AWS Glue Studio giúp bạn dễ dàng tạo, chạy và theo dõi các tác vụ ETL của AWS Glue một cách trực quan. Bạn có thể dùng trình biên tập dạng kéo và thả để xây dựng các tác vụ ETL nhằm di chuyển cũng như chuyển đổi dữ liệu và AWS Glue sẽ tự động tạo mã cho bạn.

    Sơ đồ minh họa cách người dùng có thể dùng trình biên tập dạng kéo và thả để soạn thảo các tác vụ ETL nhằm di chuyển và chuyển đổi dữ liệu.
  • Quản lý và giám sát chất lượng dữ liệu
  • Chất lượng dữ liệu AWS Glue tự động hóa việc thiết lập quy tắc, quản lý và giám sát chất lượng dữ liệu để giúp đảm bảo dữ liệu có chất lượng cao trên các hồ dữ liệu và quy trình của bạn.

    Sơ đồ thể hiện cách Chất lượng dữ liệu AWS Glue tự động đo lường, giám sát và quản lý chất lượng dữ liệu trên các hồ dữ liệu và quy trình dữ liệu.
  • Chuẩn bị dữ liệu
  • Với AWS Glue DataBrew, bạn có thể khám phá và thí nghiệm dữ liệu ngay từ chính hồ dữ liệu, kho dữ liệu và cơ sở dữ liệu của mình, bao gồm Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora và Dịch vụ cơ sở dữ liệu quan hệ (RDS) của Amazon. Bạn có thể lựa chọn từ hơn 250 phép chuyển đổi tạo sẵn trong DataBrew để tự động hóa các tác vụ chuẩn bị dữ liệu, chẳng hạn như lọc điểm bất thường, tiêu chuẩn hóa định dạng và sửa đổi các giá trị không hợp lệ.

    Ngoài ra, AWS Glue Studio mang lại công cụ chuẩn bị dữ liệu cho phép bạn chuẩn bị dữ liệu với giao diện trực quan, tương tác trỏ và nhấp mà không cần viết mã.

    Sơ đồ minh họa cách DataBrew tự động hóa các tác vụ chuẩn bị dữ liệu cho người dùng.

Trường hợp sử dụng

Hỗ trợ nhiều khung xử lý và khối lượng công việc

Hỗ trợ nhiều khung xử lý dữ liệu khác nhau, chẳng hạn như ETL và ELT, cũng như nhiều khối lượng công việc khác nhau dễ dàng hơn, bao gồm khối lượng công việc theo lô, lô nhỏ và truyền phát.

Tương tác khám phá, thử nghiệm và xử lý dữ liệu

Với phiên tương tác AWS Glue, kỹ sư dữ liệu có thể tương tác khám phá và chuẩn bị dữ liệu bằng môi trường phát triển tích hợp (IDE) hoặc sổ tay tùy chọn.

Đơn giản hóa việc phát triển quy trình ETL

Loại bỏ khâu quản lý cơ sở hạ tầng bằng khả năng cung cấp tự động và quản lý nhân lực, đồng thời hợp nhất toàn bộ nhu cầu tích hợp dữ liệu của bạn vào một dịch vụ duy nhất.

Khám phá dữ liệu hiệu quả

Nhanh chóng xác định dữ liệu trên AWS, tại chỗ và trong các đám mây khác, rồi đưa ngay dữ liệu này vào trạng thái sẵn sàng để truy vấn và chuyển đổi.

Có gì mới

  • Ngày (Từ mới nhất đến cũ nhất)
Không tìm thấy kết quả
1

Khám phá thêm về AWS