Warum Athena?
Amazon Athena ist ein interaktiver Serverless-Analysedienst, der auf Open-Source-Frameworks basiert und es Ihnen ermöglicht, Petabytes an Daten dort zu analysieren, wo sie sich befinden. Mit Athena können Sie SQL oder Apache Spark verwenden und es gibt keine Infrastruktur, die eingerichtet oder verwaltet werden muss. Die Preisgestaltung ist einfach: Sie zahlen auf der Grundlage der verarbeiteten Daten oder der verwendeten Rechenleistung.
Zu Beginn erstellen Sie eine Arbeitsgruppe, in der Sie Ihre Abfrage-Engine, Ihr Arbeitsverzeichnis im Amazon Simple Storage Service (S3), in dem die Ergebnisse Ihrer Ausführung gespeichert werden, AWS Identity and Access Management (IAM)-Rollen (falls erforderlich) und Ihre Ressourcen-Tags angeben können. Sie können Arbeitsgruppen verwenden, um Benutzer, Teams, Anwendungen oder Workloads zu trennen, Grenzen für die Datenmenge festzulegen, die jede Abfrage oder die gesamte Arbeitsgruppe verarbeiten kann, und Kosten zu verfolgen. Auf der Grundlage der von Ihnen erstellten Arbeitsgruppe können Sie entweder (a) SQL-basierte Abfragen ausführen, wobei Ihnen die Anzahl der gescannten Bytes in Rechnung gestellt wird, oder (b) Apache-Spark-Python-Code ausführen, wobei Ihnen ein Stundensatz für die Ausführung Ihres Codes in Rechnung gestellt wird.
AWS Pricing Calculator
Berechnen Sie den Preis für Ihre Amazon-Athena- und -Architekturkosten in einer einzigen Kostenschätzung.
SQL-Abfragen
SQL-Abfragen mit Provisioned Capacity
Apache Spark
Weitere Kosten
Amazon Athena fragt die Daten direkt aus Amazon S3 ab. Für die Abfrage Ihrer Daten mit Athena fallen keine zusätzlichen Speichergebühren an. Für die Nutzung von Amazon S3 werden Ihnen die Standardtarife von S3 für Speicher, Anforderungen und Datenübertragung berechnet. Die Abfrageergebnisse werden standardmäßig in einem S3-Bucket Ihrer Wahl gespeichert, der ebenfalls zu den Standardtarifen von S3 berechnet wird.
- Das Lesen, Speichern und Übertragen von Daten durch Ihre Workloads wird Ihnen von S3 in Rechnung gestellt. Dazu gehören erfolgreiche und erfolglose Abfragen. Standardmäßig werden SQL-Abfrageergebnisse und Spark-Berechnungsergebnisse in einem S3-Bucket Ihrer Wahl gespeichert und zu den Standardtarifen von S3 abgerechnet. Weitere Informationen finden Sie unter Preise für Amazon S3.
- Wenn Sie den AWS-Glue-Datenkatalog mit Athena verwenden, werden die Standardtarife des Datenkatalogs berechnet. Weitere Details finden Sie auf der Seite Preise für AWS Glue.
- SQL-Abfragen auf Verbunddatenquellen (Daten, die nicht in S3 gespeichert sind) werden pro Terabyte (TB) abgerechnet, das von Athena gescannt wird, und zwar datenquellenübergreifend aggregiert, und auf das nächste Megabyte aufgerundet mit einem Minimum von 10 Megabyte pro Abfrage, sofern Provisioned Capacity nicht verwendet wird. Solche Abfragen rufen AWS-Lambda-Funktionen in Ihrem Konto auf, und die Lambda-Nutzung wird Ihnen zu Standardtarifen in Rechnung gestellt. Lambda-Funktionen, die durch Verbundabfragen aufgerufen werden, unterliegen dem kostenlosen Kontingent von Lambda. Auf der Lambda-Preisseite finden Sie weitere Details.
Preisbeispiele
Beispiel 1 – SQL-Abfrage
Beispiel: Eine Tabelle mit 4 gleich großen Spalten, gespeichert als nicht komprimierte Textdatei, mit einer Gesamtgröße von 3 TB auf Amazon S3. Für eine Abfrage der Daten aus nur einer Spalte muss Amazon Athena die gesamte Datei durchsuchen, da Textformate nicht teilbar sind.
- Diese Abfrage kostet: 15 USD. (Preis für drei 3 TB durchsuchter Daten: 3 * 5 USD/TB = 15 USD)
Wenn Sie diese Datei mit GZIP in einem Verhältnis von 3:1 komprimieren. erhalten Sie eine komprimierte Datei mit einer Größe von 1 TB. Die gleiche Abfrage würde dann nur noch 5 USD kosten. Auch hier muss Athena die gesamte Datei durchsuchen. Da sich ihre Größe aber auf ein Drittel reduziert hat, zahlen Sie gegenüber des vorherigen Beispiels nur ein Drittel der Gebühren. Wenn Sie die Datei zusätzlich zur Komprimierung (bei einem Verhältnis von 3:1) auch in ein Spaltenformat wie Apache Parquet konvertieren, werden nach wie vor 1 TB auf S3 hochgeladen. Im Spaltenformat von Parquet muss Athena nur die für die Abfrage relevanten Spalten lesen. Da die durchgeführte Abfrage nur eine Spalte referenziert, liest Athena nur diese Spalte, so dass drei-Viertel der Datei entfallen. Athena liest also nur ein Viertel der Datei und durchsucht so nur 0,25 TB der in S3 gespeicherten Daten.
- Diese Abfrage kostet: 1,25 USD. Die Komprimierung bringt eine 3-fache und das Lesen von nur einer Spalte eine 4-fache Einsparung.
(Dateigröße = 3 TB/3 = 1 TB. Durchsuchte Daten, wenn nur eine Spalte eingelesen wird = 1 TB/4 = 0,25 TB. Preis für 0,25 TB = 0,25 * 5 USD/TB = 1,25 USD)
Beispiel 2 – SQL-Abfragen mit Provisioned Capacity
Angenommen, Ihr Team unterstützt eine Webanwendung, die Self-Service-Analysen für Benutzer bereitstellt, die während der Geschäftszeiten Anfragen stellen und erwarten, dass ihre Anfragen in einer vorhersehbaren Zeit abgeschlossen werden. Letzte Woche reichten Anwendungsbenutzer insgesamt 10 000 Abfragen ein, bei denen 500 TB an Daten gescannt wurden. Sie möchten Provisioned Capacity verwenden, um ein konsistentes Benutzererlebnis zu gewährleisten, wenn die Anzahl der Benutzer wächst. Aus der Analyse Ihrer Abfragen stellen Sie fest, dass 96 DPU für Ihre aktuelle Workload ausreichend sind.
- Für einen Werktag werden die Kosten für die Unterstützung dieses Workloads mit bereitgestellter Kapazität wie folgt berechnet: 96 DPU * 0,30 USD pro DPU-Stunde * 12 Stunden pro Tag = 345,60 USD.
Eines Morgens erfahren Sie, dass eine neue Gruppe von Anwendungsbenutzern das Onboarding abgeschlossen hat und Sie erwarten daher, dass das Abfragevolumen doppelt so hoch sein wird wie am Vortag. Sie möchten sicherstellen, dass die Benutzer eine ähnliche Leistung wie gestern haben, erwarten aber nicht, dass alle Benutzer gleichzeitig Anfragen stellen. Zwei Stunden nach Beginn des Tages erhöhen Sie die Kapazität um 50 % auf 144 DPU.
- Die Kosten für die heutige Workload entsprechen den Kosten von 96 DPU für 2 Stunden plus 144 DPU für 10 Stunden oder 96 DPU * 0,30 USD pro DPU-Stunde * 2 Stunden + 144 DPU * 0,30 USD pro DPU-Stunde * 10 Stunden = 489,60 USD.
Beispiel 3 – Apache-Spark-Anwendung
Beispiel: Sie möchten ein Notebook in der Athena-Konsole verwenden, um die Umsatzzahlen für das vorangegangene Quartal abzurufen und sie in einem Bericht grafisch darzustellen. Dann beginnen Sie eine Sitzung mit einem Notebook. Ihre Sitzung dauert 1 Stunde und Sie erhalten 6 Berechnungen als Teil der Sitzung. Jede dieser Berechnungen benötigt 20 1-DPU-Worker-Knoten und dauert 1 Minute.
- Worker-DPU-Stunden = Anzahl der Berechnungen * DPU verwendet pro Berechnungen * Ausführungszeit der Berechnung = 6 Berechnungen * 20 DPU pro Berechnung (1/60) Stunden pro Berechnung = 2,0 DPU-Stunden
- Driver-DPU-Stunden = verwendete DPU pro Sitzung * Sitzungszeit = 1 DPU pro Sitzung * 1 Stunde pro Sitzung = 1,0 DPU-Stunde
- Gesamt DPU-Stunden = Worker-DPU-Stunden + Driver-DPU-Stunden = 2,0 DPU-Stunden + 1,0 DPU-Stunden = 3,0 DPU Stunden
- Spark-Anwendungsgebühren = 0,35 USD pro DPU-Stunde * 3,0 DPU-Stunden = 1,05 USD
Hinweis: S3 stellt Ihnen das Speichern und Lesen Ihrer Daten und der Ergebnisse Ihrer Ausführung separat in Rechnung.
Zusätzliche Ressourcen zur Preiskalkulation
Berechnen Sie Ihre monatlichen Nutzungskosten für AWS auf einfache Art und Weise
Kontaktieren Sie AWS-Spezialisten, um ein personalisiertes Angebot zu erhalten
Machen Sie sich mit den ersten Schritten in Amazon Athena vertraut.
Beginnen Sie mit dem Erstellen von Amazon Athena in der AWS-Managementkonsole.