Amazon EMR Serverless
Amazon EMR Serverless は Amazon EMR のサーバーレスオプションで、データアナリストやエンジニアが、クラスターやサーバーを設定、管理、スケールすることなく、オープンソースのビッグデータ分析フレームワークを簡単に実行できるようにします。エキスパートによるクラスターの計画および管理を必要とすることなく、Amazon EMR のすべての機能と利点を活用できます。
利点
フレームワークをより簡単に実行
アプリケーションのために実行するオープンソースフレームワーク (Apache Spark や Apache Hive など) を選択すると、基盤となるコンピューティングリソースとメモリリソースを EMR Serverless が自動的にプロビジョニングして管理します。
オンデマンドでスケール
変化するデータ量と処理要件に合わせてリソースのサイズを数秒で変更する自動オンデマンドスケーリングにより、分析ワークロードをあらゆる規模で実行できます。
コストを最適化
EMR Serverless は、リソースを自動的にスケールアップおよびスケールダウンして、アプリケーションに適切な量のキャパシティを提供します。お支払いは実際に使用した分のみのため、プロビジョニングの過剰または不足に関する懸念を最小限に抑えることができます。
仕組み
ステップ 1: アプリケーションを作成する
使用するオープンソースのフレームワークとバージョンを選択します。
ステップ 2: ジョブを送信する
API または EMR Studio を利用してアプリケーションにジョブを送信します。また、Apache Airflow や Amazon Managed Workflows for Apache Airflow などのワークフローオーケストレーションサービスを利用してジョブを送信することもできます。
ステップ 3: ジョブをデバッグする
Spark UI や Tez UI などの使い慣れたオープンソースツールを使用して、ジョブをモニタリングおよびデバッグします。
ユースケース
可変ワークロード
ワークロードの需要が変化する中で、必要なコンピューティング能力とメモリの量を事前に設定しなくても、アプリケーションリソースをシームレスにスケールできます。
SLA に影響しやすいデータパイプライン
SLA に影響しやすいデータパイプラインには、アプリケーションリソースを事前に初期化し、秒単位での応答を有効にするオプションを選択します。
開発環境とテスト環境
開発およびテスト環境を迅速かつ簡単に立ち上げ、予測できない使用状況に応じて自動的にスケールし、製品をより早く市場に投入できます。