Amazon SageMaker Data Processing

規模を問わず、分析と AI のためにデータを分析、準備、統合する

SageMaker Data Processing を利用すべき理由

Amazon Athena、Amazon EMR、AWS Glue、および Amazon Managed Workflows for Apache Airflow (Amazon MWAA) のデータ処理機能を使用して、データの準備、統合、オーケストレーションを実行しましょう。何百ものデータソースにすばやく簡単に接続できるため、どこにあってもデータを処理して統合できます。

Apache Spark、Trino、Apache Flink などのオープンソースのデータ処理フレームワークを使用できます。インフラストラクチャを管理することなく Trino を使用してデータを大規模に分析し、Apache Flink と Apache Spark を使用してリアルタイムの分析をシームレスに構築します。

データ品質、機密データの識別、リネージトラッキングを自動化し、Amazon SageMaker Lakehouse とのネイティブ統合によりきめ細かなアクセスコントロールを実施することで、データが正確で安全であると信頼できます。

利点

Amazon SageMaker Data Processing は、データおよびストリーム処理フレームワークやオープンソースの分散 SQL クエリエンジンに加えて、ノートブック、クエリエディタ、ビジュアル ETL (抽出、変換、ロード) などの最も一般的なツールへの包括的なアクセスを提供します。

Apache Spark などの最も一般的なフレームワークにアクセスして、あらゆる規模でデータを準備および統合できます。Apache Flink や Apache Spark Streaming によるストリーム処理でリアルタイムのビジネスニーズに応え、Trino などの主要オープンソース SQL フレームワークでデータを分析します。Amazon MWAA とのネイティブ統合により、インフラストラクチャを管理することなくワークフローオーケストレーションを簡素化します。

SageMaker Data Processing は SageMaker Lakehouse とネイティブに統合されているため、分析、アドホッククエリ、機械学習 (ML)、生成 AI などのあらゆるユースケースに対し、1 つのデータコピーを使用して処理と統合を実行できるようになります。

SageMaker Lakehouse は、Amazon Simple Storage Service (Amazon S3) データレイクと Amazon Redshift データウェアハウス全体のデータを統合することで、データへの統合されたアクセスを提供します。レイクハウスで統合されたデータは何百ものコネクタ、ゼロ ETL 統合、フェデレーションデータソースを使用して検出および分析できるため、ビジネスの全体像を把握することが可能になります。SageMaker Lakehouse は、特定のストレージ形式やクエリエンジンの選択に制約されることなく、既存のデータアーキテクチャとすぐに連携できます。

Apache Iceberg テーブルよりも高速なクエリパフォーマンスにより、効率を向上させられます。Apache Spark、Apache Airflow、Apache Flink、Trino などの高性能でオープンソースの API 互換バージョンを使用すると、従来のオープンソースシステムの最大 2 倍の速さでインサイトを得ることができます。

SageMaker Data Processing を使用すると、コンピューティング能力やオープンソースアプリケーションを管理することなく、データの変換と分析に集中できるため、時間を節約し、コストを削減できます。Amazon Elastic Compute Cloud (Amazon EC2) の Amazon EMR または Amazon Elastic Kubernetes Service (Amazon EKS) の Amazon EMR でキャパシティを自動的にプロビジョニングできます。スケーリングルールは、コンピューティング需要の変化を管理して、パフォーマンスとランタイムを最適化します。

Amazon SageMaker Catalog との統合により、自動化されたデータ品質レポート、機密データの検出、データと AI モデルのリネージトラッキングにより、信頼と透明性を高めます。データ品質ルールの自動測定、監視、レコメンデーションにより、データの品質に対する信頼性を高めます。

SageMaker Lakehouse のデータセットに定義されているきめ細かなアクセス制御を順守して適用することで、データをセキュアに処理して分析します。これは、許可を一度定義するだけで、組織全体の権限を持つユーザーがデータにアクセスできるようにすることを可能にします。

AWS のサービス数

簡素化されたデータ統合

AWS Glue はサーバーレスのデータ統合を行い、複数のソースからのデータ調査、準備、統合を簡素化します。多様なデータソースを接続し、一元化されたデータカタログでデータを管理し、ETL パイプラインを視覚的に作成、実行、モニタリングして、データをレイクハウスにロードできます。AWS Glue はオンデマンドで自動的にスケールするため、インフラストラクチャを管理することなく、お客様のデータからインサイトを得ることに集中できます。

Apache Spark、Apache Hive、Trino、その他のワークロードを実行してスケール

Amazon EMR により、Apache Spark、Apache Airflow、Apache Flink、Trino などのデータ処理ワークロードをより簡単かつ費用対効果の高い方法で実行できます。データ処理パイプラインを構築して実行し、オンプレミスソリューションよりも迅速に自動スケーリングを行います。

コストの追跡

Athena は、データを大規模に分析するためのシンプルで柔軟な方法を提供します。Athena は、標準 SQL を使用して Amazon S3 でのデータ分析を簡素化するインタラクティブなクエリサービスです。Athena はサーバーレスなので、インフラストラクチャをセットアップしたり管理したりする必要がなく、実行するクエリやクエリに必要なコンピューティングリソースに基づいて料金を支払うことができます。Athena を使用して、ログを処理し、データ分析やインタラクティブなクエリを実行します。Athena は自動的にスケールし、並列して複数のクエリが実行されるため、データセットの容量が大きく、クエリが複雑でも、短時間で結果が表示されます。

Apache Airflow 向けのセキュリティ重視で可用性の高いマネージドワークフローオーケストレーション

Amazon MWAA は Apache Airflowのマネージドサービスであり、現在お使いの使い慣れた Apache Airflow のプラットフォームを使用してワークフローをオーケストレーションすることができます。基盤となるインフラストラクチャを管理するための運用負荷をかけずに、スケーラビリティ、可用性、セキュリティを向上させることができます。Amazon MWAA は、Python で記述された有向非巡回グラフ (DAG) を使用してワークフローを調整します。お客様は DAG、プラグイン、Python の要件が保存されている S3 バケットを Amazon MWAA に提供します。Apache Airflow を大規模に展開することで、インフラストラクチャの管理に伴う運用負荷を軽減します。

ユースケース

AWS、オンプレミス、その他のクラウドにわたる統合データをすばやく識別してアクセスし、クエリや変換にすぐに利用できるようにします。

Apache Spark、Apache Flink、Trino などのフレームワークや、バッチ、マイクロバッチ、ストリーミングなどのさまざまなワークロードを使用してデータを処理します。

統計アルゴリズムと予測モデルを使用して大規模なデータ処理と what-if 分析を実行し、隠されたパターン、相関関係、市場動向、および顧客の好みを明確にします。