Amazon S3 Tables

データレイクのスケーリングに合わせてクエリのパフォーマンスとコストを最適化

表形式のデータを大規模に S3 に保存

Amazon S3 Tables は、Apache Iceberg サポートが組み込まれた初めてのクラウドオブジェクトストアを提供し、表形式データの大規模な保存を効率的に行えるようにします。S3 Tables は、汎用の S3 バケットに保存されているセルフマネージド型の Iceberg テーブルと比較して、クエリパフォーマンスが最大 3 倍速く、1 秒あたりのトランザクション数が最大 10 倍多いため、特に分析ワークロードに最適化されています。S3 Tables が Apache Iceberg 標準をサポートしているため、Amazon Athena、Redshift、EMR、Apache Spark などの一般的な AWS およびサードパーティーのクエリエンジンを使用して、表形式のデータを簡単にクエリできます。S3 Tables を使用して、毎日の購入取引、ストリーミングセンサーデータ、広告インプレッションなどの表形式のデータを S3 の Iceberg テーブルとして保存し、自動テーブルメンテナンスを使用してデータの変化に応じてパフォーマンスとコストを最適化します。 詳細についてはブログ記事をお読みください

利点

始めたばかりでも、Iceberg 環境で何千ものテーブルを管理している場合でも、あらゆる規模のデータレイクを簡素化します。

汎用 S3 バケットに保存されたセルフマネージド型の Iceberg テーブルと比較して、クエリパフォーマンスが最大 3 倍速く、1 秒あたりのトランザクション数が最大 10 倍増加します。

コンパクション、スナップショット管理、未参照ファイルの削除などのテーブルメンテナンスタスクを継続的に実行して、時間の経過とともにクエリの効率とコストを自動的に最適化できます。

S3 Tables プレビュー統合と AWS Glue データカタログを通じて、Amazon Athena、Redshift、EMR などの使い慣れた AWS サービスを使用して高度な Iceberg 分析機能にアクセスし、データをクエリできます。S3 Tables は一般的なオープンソースツールと互換性があります。

テーブルをファーストクラスの AWS リソースとして作成し、アクセス許可を適用して簡単にアクセスを管理できます。

仕組み

S3 Tables は、構造化データを Apache Parquet 形式で保存するための専用の S3 ストレージを提供します。テーブルバケット内では、テーブルをファーストクラスのリソースとして直接 S3 に作成できます。これらのテーブルは、ID ベースまたはリソースベースのポリシーで定義されたテーブルレベルの許可で保護でき、Apache Iceberg 標準をサポートするアプリケーションまたはツールによってアクセスできます。テーブルバケットにテーブルを作成すると、S3 内の基盤となるデータは Parquet データとして保存されます。その後、S3 は、その Parquet データをアプリケーションでクエリ可能にするために必要なメタデータを維持します。テーブルバケットには、テーブルバケット内のテーブルの Iceberg メタデータを操作および更新するためにクエリエンジンによって使用されるクライアントライブラリが含まれています。このライブラリは、テーブルオペレーション用の更新された S3 API と連携して、複数のクライアントが安全に、データをテーブルに読み書きできるようにします。時間が経過する中で、S3 は、オブジェクトを書き換える (あるいは「圧縮」する) ことによって、基盤となる Parquet データを自動的に最適化します。圧縮により、S3 上のデータが最適化され、クエリのパフォーマンスが改善し、コストを最小限に抑えることができます。 詳細については、ユーザーガイドをお読みください。

Amazon S3 テーブルのデモ動画

お客様

  • Genesys

    Genesys は、AI を活用したエクスペリエンスオーケストレーションのグローバルクラウドリーダーです。Genesys は、高度な AI、デジタル、ワークフォースエンゲージメント管理機能を通じて、100 か国以上の 8,000 を超える組織が、ビジネスの俊敏性と成果の向上による恩恵を受けながら、パーソナライズされた共感できる顧客体験と従業員体験をもたらすことができるよう支援しています。

    Amazon S3 Tables は、特に多様なデータ分析ニーズに対応するマテリアライズドビューレイヤーを効果的に作成するマネージド Iceberg サポートが導入されたことで、当社のデータアーキテクチャに変革をもたらすでしょう。このサービスは、S3 が圧縮、スナップショット管理、未参照ファイルのクリーンアップなどの主要なメンテナンスタスクを自動的に処理するため、テーブル管理の余分なレイヤーを排除することで、Genesys が複雑なデータワークフローを簡素化するのに役立つ可能性があります。S3 から Iceberg Tables を直接読み書きできるようになったことで、パフォーマンスが向上し、分析エコシステム全体でデータをシームレスに統合する新たな可能性が生まれます。この相互運用性とパフォーマンスの向上により、S3 Tables は、迅速、柔軟かつ信頼性の高いデータインサイトを提供するための将来戦略において極めて重要な位置を占めることになります。

    Genesys、Chief Technology Officer、Glenn Nethercutt 氏
  • SnapLogic

    SnapLogic は AI 主導の統合におけるパイオニアです。SnapLogic Platform for Generative Integration は、企業全体のデジタルトランスフォーメーションを加速して、タスクを自動化し、リアルタイムで意思決定を行い、既存のワークフローに簡単に統合できる AI エージェントと統合を設計、導入、管理できるようにしています。

    Amazon S3 Tables には Apache Iceberg サポートと AWS Analytics サービスの統合が組み込まれており、企業が分析、コンプライアンス、AI の取り組みにビジネスデータを活用する方法を変革しながら、データ分析コストを最適化するのを支援しています。複雑なデータ管理タスクを自動化し、データ変更の完全な監査証跡を提供することで、チームは技術コストを大幅に削減しながら、履歴データを即座に分析し、規制コンプライアンスを維持し、ビジネス上のインサイトを迅速に得ることができます。

    SnapLogic、Enterprise Architect、Dominic Wellington 氏
  • Zus Health

    Zus は共有医療データプラットフォームで、API、組み込みコンポーネント、直接的な EHR 統合を介して使いやすい患者データを提供することにより、医療データの相互運用性を促進するように設計されています。

    頻繁に変化する大量の患者データを扱うヘルスケア企業として、私たちは Apache Iceberg に投資することにしました。Apache Iceberg は、パーティション分割とオートメーションに関する Apache Hive の多くの問題点を解決したのに加え、広い相互運用性を享受できるメリットもあったからです。Iceberg の最大の課題の 1 つは、テーブルの最適化の把握と管理でした。これが、S3 Tables とマネージド最適化機能に期待している理由です。デベロッパーがテーブルメンテナンスの負担を軽減できれば、高品質のデータと貴重なインサイトをお客様に提供することにもっと集中できるようになります。

    Zus Health、Consulting Software Engineer、Sonya Huang 氏