Amazon-SageMaker-Datenverarbeitung

Daten für Analytik und KI in jeder Größenordnung analysieren, vorbereiten und integrieren

Warum SageMaker-Datenverarbeitung?

Bereiten Sie Ihre Daten vor, integrieren und orchestrieren Sie sie mit den Datenverarbeitungsfunktionen von Amazon Athena, Amazon EMR, AWS Glue und Amazon Managed Workflows für Apache Airflow (MWAA). Verarbeiten und integrieren Sie Ihre Daten, wo auch immer sie sich befinden, mit schneller und einfacher Konnektivität zu Hunderten von Datenquellen.

Nutzen Sie Open-Source-Frameworks für die Datenverarbeitung wie Apache Spark, Trino und Apache Flink. Analysieren Sie Daten in großem Maßstab mit Trino, ohne die Infrastruktur zu verwalten, und erstellen Sie nahtlos Echtzeitanalytik mit Apache Flink und Apache Spark.

Vertrauen Sie darauf, dass Ihre Daten korrekt und sicher sind, indem Sie die Datenqualität, die Identifizierung sensibler Daten, die Nachverfolgung der Lineage und die Durchsetzung differenzierter Zugriffskontrollen durch die native Integration in Amazon SageMaker Lakehouse automatisieren.

Vorteile

Amazon SageMaker Data Processing bietet umfassenden Zugriff auf Daten- und Stream-Verarbeitungs-Frameworks, verteilte Open-Source-SQL-Abfrage-Engines und die beliebtesten Tools wie Notebooks, Abfrage-Editoren und visuelles Extract, Transform and Load (ETL).

Sie können auf die gängigsten Frameworks wie Apache Spark zugreifen, um Ihre Daten in jeder Größenordnung aufzubereiten und zu integrieren. Reagieren Sie mit Stream-Verarbeitung mit Apache Flink und Apache Spark Streaming auf Geschäftsanforderungen in Echtzeit und analysieren Sie Daten mit führenden Open-Source-SQL-Frameworks wie Trino. Vereinfachen Sie die Workflow-Orchestrierung, ohne die Infrastruktur mit nativer Integration mit Amazon MWAA verwalten zu müssen.

SageMaker Data Processing ist nativ in SageMaker Lakehouse integriert, sodass Sie mit einer Kopie Ihrer Daten für all Ihre Anwendungsfälle, einschließlich Analysen, Ad-hoc-Abfragen, Machine Learning und generative KI, verarbeiten und integrieren können.

SageMaker Lakehouse vereinheitlicht Daten aus Amazon Simple Storage Service (Amazon S3) Data Lakes und Amazon Redshift Data Warehouses und bietet so einen einheitlichen Zugriff auf Ihre Daten. Mit Hunderten von Konnektoren, Null-ETL-Integrationen und föderierten Datenquellen können Sie im Lakehouse vereinheitlichte Daten entdecken und analysieren, sodass Sie sich ein vollständiges Bild von Ihrem Unternehmen machen. SageMaker Lakehouse funktioniert sofort mit Ihrer vorhandenen Datenarchitektur, ohne durch bestimmte Speicherformate oder Abfrage-Engine-Optionen eingeschränkt zu sein.

Verbessern Sie die Effizienz mit schneller Abfrageleistung über Apache-Iceberg-Tabellen. Erhalten Sie Einblicke bis zu 2-mal schneller als bei herkömmlichen Open-Source-Systemen mit hochleistungsfähigen und Open-Source-API-kompatiblen Versionen von Apache Spark, Apache Airflow, Apache Flink, Trino und mehr.

Mit SageMaker Data Processing können Sie sich auf die Transformation und Analyse Ihrer Daten konzentrieren, ohne Rechenkapazität oder Open-Source-Anwendungen verwalten zu müssen. Das spart Ihnen Zeit und senkt die Kosten. Sie können Ihre Kapazität automatisch auf Amazon EMR in der Amazon Elastic Compute Cloud (Amazon EC2) oder auf Amazon EMR in Amazon Elastic Kubernetes Service (Amazon EKS) bereitstellen. Skalierungsregeln verwalten Änderungen an Ihrem Rechenbedarf, um Leistung und Laufzeiten zu optimieren.

Gewinnen Sie Vertrauen und Transparenz mit automatisierten Berichten zur Datenqualität, der Erkennung sensibler Daten und der Nachverfolgung der Herkunft von Daten und KI-Modellen durch die Integration im Amazon-SageMaker-Katalog. Erhöhen Sie das Vertrauen in die Qualität Ihrer Daten durch automatische Messungen, Überwachung und Empfehlungen für Datenqualitätsregeln.

Verarbeiten und analysieren Sie Ihre Daten sicher, indem Sie die detaillierten Zugriffskontrollen einhalten und durchsetzen, die für Datensätze in SageMaker Lakehouse definiert sind. So können Sie Berechtigungen einmalig definieren und Ihre Daten autorisierten Benutzern in Ihrem gesamten Unternehmen zugänglich machen.

AWS-Services

Vereinfachte Datenintegration

AWS Glue bietet eine Serverless-Datenintegration und vereinfacht so die Erkundung, Vorbereitung und Integration von Daten aus mehreren Quellen. Stellen Sie eine Verbindung zu verschiedenen Datenquellen her, verwalten Sie Ihre Daten in einem zentralen Datenkatalog und erstellen, betreiben und überwachen Sie visuell ETL-Pipelines, um Daten in Ihr Lakehouse zu laden. AWS Glue skaliert automatisch bei Bedarf, sodass Sie sich darauf konzentrieren können, Einblicke aus Ihren Daten zu gewinnen, ohne die Infrastruktur verwalten zu müssen.

Apache Spark, Apache Hive, Trino und andere Workloads ausführen und skalieren

Amazon EMR ermöglicht eine einfachere und kostengünstigere Ausführung von Datenverarbeitungs-Workloads wie Apache Spark, Apache Airflow, Apache Flink, Trino und mehr auszuführen. Erstellen und betreiben Sie Datenverarbeitungs-Pipelines und skalieren Sie automatisch schneller als bei On-Premises-Lösungen.

Kosten nachverfolgen

Athena bietet eine vereinfachte und flexible Methode zur Analyse Ihrer Daten in jeder Größenordnung. Athena ist ein interaktiver Abfrageservice, der die Datenanalyse in Amazon S3 mithilfe von Standard-SQL vereinfacht. Athena ist Serverless, sodass keine Infrastruktur eingerichtet oder verwaltet werden muss. Sie können wählen, ob Sie auf der Grundlage der von Ihnen ausgeführten Abfragen oder der für Ihre Abfragen benötigten Rechenressourcen bezahlen möchten. Sie können Athena nutzen, um Protokolle zu verarbeiten, Datenanalysen durchzuführen und interaktive Abfragen auszuführen. Athena skaliert sich automatisch. Mehrere Abfragen werden parallel ausgeführt, sodass Sie die Ergebnisse selbst bei großen Datensätzen und komplexen Abfragen schnell zurück erhalten.

Sicherheitsorientierte und hochverfügbare verwaltete Workflow-Orchestrierung für Apache Airflow

Amazon MWAA ist ein verwalteter Service für Apache Airflow, mit dem Sie Ihre aktuelle, vertraute Apache-Airflow-Plattform für die Orchestrierung Ihrer Arbeitsabläufe nutzen können. Sie profitieren von einer verbesserten Skalierbarkeit, Verfügbarkeit und Sicherheit, ohne dass Sie sich um die Verwaltung der zugrunde liegenden Infrastruktur kümmern müssen. Amazon MWAA orchestriert Ihre Workflows mithilfe gerichteter azyklischer Graphen (DAGs), die in Python geschrieben wurden. Sie stellen Amazon MWAA einen S3-Bucket zur Verfügung, in dem sich Ihre DAGs, Plugins und Python-Anforderungen befinden. Setzen Sie Apache Airflow in großem Umfang ein, ohne die zugrunde liegende Infrastruktur verwalten zu müssen.

Anwendungsfälle

Identifizieren Sie schnell vereinheitlichte Daten in AWS, On-Premises und anderen Clouds, greifen Sie darauf zu und stellen Sie sie dann sofort für Abfragen und Transformationen zur Verfügung.

Verarbeiten Sie Daten mithilfe von Frameworks wie Apache Spark, Apache Flink und Trino sowie mit verschiedenen Workloads, einschließlich Batch, Microbatch und Streaming.

Führen Sie mithilfe von statistischen Algorithmen und Prognose-Modellen Daten-Verarbeitung auf großer Skala und What-If-Analysen durch, um versteckte Muster, Korrelationen, Markttrends und Kundenvorlieben zu erkennen.