Apache HBase とは
Apache HBase は、オープンソースの NoSQL 分散型ビッグデータストアです。ペタバイト規模のデータへの厳密に一貫したランダムなリアルタイムアクセスが可能です。HBase は、大規模なスパースデータセットの処理に非常に効果的です。
HBase は Apache Hadoop および Hadoop エコシステムとシームレスに統合され、Amazon Elastic MapReduce (EMR) ファイルシステム (EMRFS) を使用して Hadoop 分散ファイルシステム (HDFS) または Amazon S3 上で動作します。HBase は Apache MapReduce framework for Hadoop への直接の入出力として機能し、Apache Phoenix と連携して HBase テーブルに対する SQL のようなクエリを可能にします。
HBase のしくみ
HBase は列指向の非リレーショナルデータベースです。データは個々の列に格納され、固有の行キーで索引付けされます。このアーキテクチャにより、個々の行と列を迅速に取得し、テーブル内の個々の列を効率的にスキャンすることができます。データとリクエストの両方が HBase クラスター内のすべてのサーバーに分散されるので、数ミリ秒以内にペタバイト単位のデータで結果をクエリできます。HBase は、HBase API を介してアクセスされる非リレーショナルデータの保存で最も効果的に使用されます。Apache Phoenix は HBase の上にある SQL レイヤーとして広く使用されており、使い慣れた SQL 構文を使用して、HBase に保存されているデータを挿入、削除、クエリすることができます。
HBase のメリット
スケーラブル
HBase は、数千台のサーバーにわたるスケーリングを処理するために設計されていて、ペタバイト単位のデータへのアクセスを管理します。Amazon EC2 の伸縮性と Amazon S3 のスケーラビリティにより、HBase は膨大なデータセットへのオンラインアクセスを処理できます。
高速
HBase は、アプリケーションからのリクエストを複数のホストで構成されるクラスター全体に分散することで、ペタバイト単位のデータへの低レイテンシーのランダム読み取り/書き込みアクセスを提供します。各ホストは HDFS と S3 のデータにアクセスでき、読み取りと書き込みのリクエストをミリ秒単位で処理します。
フォールトトレラント
HBase は、テーブルに格納されたデータをクラスター内の複数のホストに分割し、個々のホストの障害に耐えられるように構築されています。データは HDFS または S3 に保存されるため、障害が発生したホストによって処理されたデータは正常なホストによって自動的にホストされ、データは自動的にオンラインになります。
Hbase のユースケース
FINRA (Financial Industry Regulatory Authority) は米国の、最大の独立系証券取引規制機関で、金融取引の監視と規制を行っています。FINRA は、3 兆件のレコード (毎日数十億単位で増加する) に対するランダムアクセスのため、Amazon EMR を使用して Amazon S3 で Apache HBase を運用し、対話型のアプリケーションで関連する市場での出来事を検索し、表示できるようにしています。ストレージとコンピューティングを切り離すことで、FINRA は、3 倍のレプリケーションが発生する HDFS でデータを保存するようにクラスターのサイズを調整する代わりに、データの単一コピーを Amazon S3 に保存し、必要とされるコンピューティング性能に合わせてクラスターのサイズを調整することができます。この結果、年間 60% を超えるコストが節約され、コンピューティングのスケーラビリティが容易に確保されて、新しい EC2 アベイラビリティーゾーンにおけるクラスターの復元時間が、数日間から 30 分未満にまで短縮されています。
人と仕事をつなぐ面でのグローバルリーダーである Monster は、Amazon EMR で Apache HBase を使用して、クリックストリームと広告キャンペーンデータをダウンストリーム分析のために保存しています。これにより、さまざまな顧客セグメントがキャンペーンに対してどのように行動したか、単一のインプレッションレベルの細かさでモニタリングできています。Monster の分析チームは行を簡単にスキャンすることで、ユーザーごとのビューとクリックの数を集計し、キャンペーン活動について確認できます。さらに、同社では Apache HBase と Apache Hadoop エコシステムとの緊密な統合も活用しています。Monster では Apache Hive を別の Amazon EMR クラスターで実行して HBase テーブルを SQL でクエリしています。これは、さらに詳細な分析の実行、および Apache HBase から Amazon Redshift へのデータエクスポートに役立っています。
AWS での HBase と Hadoop のサポート
Amazon EMR は、最も簡単、高速、そしてコスト効果の高いマネージド Hadoop フレームワークを提供するので、お客様は、動的にスケーラブルなすべての EC2 インスタンスにわたって大量のデータを処理することができます。お客様は、Apache HBase、Hive、Spark、Presto、Flink などのその他の一般的な分散型フレームワークを EMR で実行することもできます。
Amazon EMR の詳細
今すぐ無料の AWS アカウントを作成して、AWS で Apache HBase の使用を開始してください。