データレイクとは
データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリです。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、的確な意思決定に役立てることができます。
データレイクが必要である理由
データからビジネス価値を生み出すことができる企業は、同業他社よりも優れた業績を上げることができます。Aberdeen 社の調査によると、データレイクを実装した企業は、同業他社と比べて本業の収益成長が 9% 上回っています。このようなトップ企業は、ログファイルのほか、クリックストリーム、ソーシャルメディア、インターネットに接続したデバイスからのデータなど、データレイクに保存されている新しい情報源に対して、機械学習などの新しいタイプの分析を実行していました。これにより、顧客の獲得と維持、生産性の飛躍的向上、デバイスの事前の保守管理、情報に基づいた意思決定が可能になり、ビジネスの成長を促進する機会を特定して行動できました。
データレイクと分析ソリューションに不可欠な要素は何ですか?
データレイクと分析プラットフォームを構築する企業は、いくつかの主な機能について検討する必要があります。以下のような機能があります。
データの移動
データレイクでは、リアルタイムで送信されるデータをいくらでもインポートできます。データは複数の情報源から収集され、元の形式のままデータレイクに移動されます。このプロセスによりデータを任意のサイズにスケールできるようになり、データ構造、スキーマ、変換を定義する時間を節約できます。
データのセキュアな保存とカタログ化
データレイクでは、リレーショナルデータ (運用データベース、および基幹業務アプリケーションからのデータ) と非リレーショナルデータ (モバイルアプリケーション、IoT デバイス、ソーシャルメディア) を保存することができます。また、データのクローリング、カタログ化、インデックス作成によって、どのデータがデータレイクに保存されているかを把握する機能も提供します。さらに、データアセットを保護するためにデータはセキュアである必要があります。
分析
データレイクでは、データサイエンティスト、データデベロッパー、ビジネスアナリストなど、企業内のさまざまな職務を担当するユーザーが、任意の分析ツールやフレームワークを使ってデータにアクセスできます。これには、Apache Hadoop、Presto、および Apache Spark などのオープンソースフレームワークと、データウェアハウスベンダーおよびビジネスインテリジェンスベンダーからの商用製品が含まれます。データレイクでは、データを別の分析システムに移動させる必要なく分析を実行することができます。
機械学習
データレイクを使用する企業では、履歴データのレポートを作成することや、結果予測モデルを構築する際に機械学習を実施することなどにより、さまざまなタイプのインサイトを生成し、最適な結果を得るための所定のアクションとして幅広い選択肢を提示することができます。
データウェアハウスはデータレイクとどのように比較されますか?
要件にもよりますが、一般的な企業は、さまざまなニーズやユースケースに対応する際に、データウェアハウスとデータレイクの両方が必要になります。
データウェアハウスは、トランザクションシステムと基幹業務アプリケーションから取得したリレーショナルデータを分析するために最適化されたデータベースです。データ構造とスキーマの事前定義は、SQL クエリが高速になるように最適化されます。業務レポート作成や分析などには、通常、SQL クエリの結果が使用されるためです。データにはクリーニング、エンリッチメント、変換が実施され、信頼できる "単一の情報源" となるようにします。
一方、データレイクでは、基幹業務アプリケーションからのリレーショナルデータに加えて、モバイルアプリケーション、IoT デバイス、ソーシャルメディアからの非リレーショナルデータも保存されます。データの構造やスキーマは、データをキャプチャした時点では定義されません。つまり、データの保存時には、慎重に設計する必要がなく、この先答えが必要になりそうな質問を把握しておく必要もありません。SQL クエリ、ビッグデータ分析、全文検索、リアルタイム分析、機械学習など、さまざまなタイプのデータ分析を使用し、インサイトを発見できます。
データウェアハウスを使っている企業は、データレイクの利点を知るにつれて、データレイクを包含するようにデータウェアハウスを進化させており、多様なクエリ機能、データサイエンスのユースケース、新しい情報モデルを発見するための高度な機能を実現しています。Gartner 社は、この進化を "Data Management Solution for Analytics (DMSA)" と呼んでいます。
データレイクとデータウェアハウスの詳細な比較については、データレイクとデータウェアハウスの専用の比較ページをご覧ください。
データレイクの価値とは?
これまでよりも多くの情報源から、より多くのデータをこれまでよりも短い時間で活用できる機能、ならびにユーザーがさまざまな方法でデータのコラボレーションと分析を行うことができる機能により、的確な意思決定を迅速に行えるようになります。データレイクでは、以下のような分野で付加価値が発生します。
お客様とのやり取りの改善
データレイクは、顧客データを、ソーシャルメディア分析を伴う CRM プラットフォーム、購入履歴を含むマーケティングプラットフォーム、およびインシデントチケットからの顧客データを組み合わせることができ、最も利益の高い顧客コホート、顧客離れの原因、およびロイヤルティを向上させるプロモーションまたは特典を理解する力をビジネスに提供します。
研究開発のイノベーションにおける選択肢の増加
データレイクは、研究開発チームが仮説を検証して仮定を修正し、結果を見積もるうえで役立ちます。例えば、製品設計で高速化のために最適な素材を選択すること、遺伝子研究によって効果的な医薬品を開発すること、どのような属性を設定すると顧客が購買意欲を示すかを把握することができます。
業務効率の向上
IoT によって、製造などのプロセスでデータを収集するさまざまな方法が登場しています。このような方法では、インターネットに接続されたデバイスからデータをリアルタイムで取得できます。データレイクでは、機械が生成した IoT データの保存と分析が簡単になり、運用コストが削減されると同時に品質が向上します。
データレイクの課題とは?
データレイクアーキテクチャの主な課題は、内容が確認されないまま raw データが保存されることです。データレイクでデータを使用可能な状態に保つには、カタログを作成してデータを保護するためのメカニズムを定義しておく必要があります。このような要素がないとデータが見つからなくなり、データの沼になってしまいます。 幅広いユーザーのニーズを満たすには、データレイクがガバナンス、セマンティックの一貫性、アクセス制御を備えている必要があります。
データレイクをクラウドにどのようにデプロイしますか?
データレイクはクラウド内でデプロイするために理想的なワークロードです。クラウドには、パフォーマンス、スケーラビリティ、信頼性、可用性、多様な分析エンジン、圧倒的なスケールメリットといった利点があるためです。ESG 社の調査では、回答者の 39% がクラウドを分析の主なデプロイ先として検討しており、41% がデータウェアハウスのデプロイ先、43% が Spark のデプロイ先として検討していることがわかりました。クラウドがデータレイクに有効だとお客様が考えている主な理由は、優れたセキュリティ、デプロイ時間の短さ、高い可用性、機能の頻繁なアップデート、高い伸縮性、利用可能地域の広さ、実際の使用量に応じたコストです。
AWS はデータレイクの要件をどのようにサポートできますか?
AWS では、最も安全かつスケーラブルでコスト効率に優れた包括的なサービスポートフォリオを提供しており、お客様はクラウド上にデータレイクを構築し、機械学習を含むさまざまな分析アプローチを使用して IoT デバイスのデータなどのすべてのデータを分析できます。そのため、AWS でデータレイクと分析を運用している企業が増えており、その数は業界トップです。NETFLIX、Zillow、NASDAQ、Yelp、iRobot、FINRA といった企業が、AWS でビジネスクリティカルな分析ワークロードを実行しています。
今すぐアカウントを作成して、AWS でデータレイクの使用を開始しましょう。