AWS Glue は、ユーザーとワークロードをサポートするために複数のデータ統合エンジンを提供するサーバーレスデータ統合サービスです。AWS Glue では、ワークロードの特性、およびデベロッパーとアナリストの希望に基づいて、あらゆるワークロードに適切なエンジンを使用できます。
主な特徴
AWS Glue for Apache Spark
AWS Glue は、データ統合、および抽出、変換、ロード (ETL) ジョブに対して Apache Spark を実行するために、パフォーマンスが最適化されたサーバーレスインフラストラクチャを提供します。AWS Glue for Apache Spark は、バッチおよびストリーム処理をサポートし、データインジェスト、処理、および統合を加速化します。そうすることで、データレイクとデータウェアハウスの作成と更新を行って、データからより迅速に洞察を引き出せるようになります。
AWS Glue for Ray
AWS Glue for Ray では、データエンジニアとデベロッパーが Python と一般的な Python ライブラリを使用して大規模なデータセットを処理することができます。AWS Glue は、Python ワークロードをスケールするために使用されるオープンソースの統合コンピューティングフレームワーク、Ray (Ray.io) を使用します。AWS Glue for Ray には一般的な Python データ処理ライブラリが含まれているため、独自のライブラリを使用してデータ統合ジョブをカスタマイズできます。
AWS Glue for Python Shell
AWS Glue for Python Shell では、AWS Glue で Python スクリプトを実行するために Python Shell ジョブを使用することができます。これらのジョブを使用することで、複雑なデータ統合や分析ジョブを Python で作成できます。AWS Glue for Python Shell のジョブは、Pandas、NumPy、および Amazon SageMaker Data Wrangler など、設定なしで使用できる一般的な分析ライブラリを提供します。ユーザーは、バンドルされた機能を使用して、さまざまなデータベース、データウェアハウス、および AWS サービスに接続することができます。