SageMaker Data Processing を利用すべき理由
Amazon Athena、Amazon EMR、AWS Glue、および Amazon Managed Workflows for Apache Airflow (Amazon MWAA) のデータ処理機能を使用して、データの準備、統合、オーケストレーションを実行しましょう。何百ものデータソースにすばやく簡単に接続できるため、どこにあってもデータを処理して統合できます。
Apache Spark、Trino、Apache Flink などのオープンソースのデータ処理フレームワークを使用できます。インフラストラクチャを管理することなく Trino を使用してデータを大規模に分析し、Apache Flink と Apache Spark を使用してリアルタイムの分析をシームレスに構築します。
データ品質、機密データの識別、リネージトラッキングを自動化し、Amazon SageMaker Lakehouse とのネイティブ統合によりきめ細かなアクセスコントロールを実施することで、データが正確で安全であると信頼できます。
利点
AWS のサービス数
簡素化されたデータ統合
AWS Glue はサーバーレスのデータ統合を行い、複数のソースからのデータ調査、準備、統合を簡素化します。多様なデータソースを接続し、一元化されたデータカタログでデータを管理し、ETL パイプラインを視覚的に作成、実行、モニタリングして、データをレイクハウスにロードできます。AWS Glue はオンデマンドで自動的にスケールするため、インフラストラクチャを管理することなく、お客様のデータからインサイトを得ることに集中できます。
Apache Spark、Apache Hive、Trino、その他のワークロードを実行してスケール
Amazon EMR により、Apache Spark、Apache Airflow、Apache Flink、Trino などのデータ処理ワークロードをより簡単かつ費用対効果の高い方法で実行できます。データ処理パイプラインを構築して実行し、オンプレミスソリューションよりも迅速に自動スケーリングを行います。
コストの追跡
Athena は、データを大規模に分析するためのシンプルで柔軟な方法を提供します。Athena は、標準 SQL を使用して Amazon S3 でのデータ分析を簡素化するインタラクティブなクエリサービスです。Athena はサーバーレスなので、インフラストラクチャをセットアップしたり管理したりする必要がなく、実行するクエリやクエリに必要なコンピューティングリソースに基づいて料金を支払うことができます。Athena を使用して、ログを処理し、データ分析やインタラクティブなクエリを実行します。Athena は自動的にスケールし、並列して複数のクエリが実行されるため、データセットの容量が大きく、クエリが複雑でも、短時間で結果が表示されます。
Apache Airflow 向けのセキュリティ重視で可用性の高いマネージドワークフローオーケストレーション
Amazon MWAA は Apache Airflowのマネージドサービスであり、現在お使いの使い慣れた Apache Airflow のプラットフォームを使用してワークフローをオーケストレーションすることができます。基盤となるインフラストラクチャを管理するための運用負荷をかけずに、スケーラビリティ、可用性、セキュリティを向上させることができます。Amazon MWAA は、Python で記述された有向非巡回グラフ (DAG) を使用してワークフローを調整します。お客様は DAG、プラグイン、Python の要件が保存されている S3 バケットを Amazon MWAA に提供します。Apache Airflow を大規模に展開することで、インフラストラクチャの管理に伴う運用負荷を軽減します。