Domande frequenti su Amazon SageMaker Lakehouse

Domande generali

Amazon SageMaker Lakehouse unifica tutti i tuoi dati nei data lake di Amazon Simple Storage Service (Amazon S3) e nei data warehouse di Amazon Redshift, aiutandoti a creare potenti applicazioni di analisi e di IA/ML su una singola copia dei dati. SageMaker Lakehouse ti offre la flessibilità di accedere ai dati e sottoporli a query con tutti gli strumenti e i motori compatibili con Apache Iceberg. Proteggi i tuoi dati nel lakehouse definendo autorizzazioni che vengono applicate a tutti gli strumenti e i motori di analisi e machine learning (ML). Porta i dati dai database e dalle applicazioni operative nel lakehouse in tempo quasi reale tramite integrazioni Zero-ETL. Inoltre, accedi ai dati ed esegui query sul posto con funzionalità di query federate su origini dati di terze parti.

SageMaker Lakehouse:

a) Riduce i silos di dati fornendo un accesso unificato su data lake Amazon S3 e data warehouse Amazon Redshift. I dati provenienti da database e applicazioni operativi possono essere inseriti nel tuo lakehouse quasi in tempo reale per analisi e ML con pipeline di estrazione, trasformazione e caricamento (ETL) con uso ridotto o senza codice. Puoi anche utilizzare centinaia di connettori e 13 funzionalità di query federate per accedere ai dati da AWS e da origini esterne.

b) Offre la flessibilità di accedere ed eseguire query su tutti i tuoi dati sul posto, da un'ampia gamma di servizi AWS, strumenti e motori open source e di terze parti, compatibili con Apache Iceberg. Puoi utilizzare strumenti e motori di analisi a tua scelta come SQL, Apache Spark, business intelligence (BI) e strumenti di IA/ML e collaborare con una singola copia dei dati archiviati su Amazon S3 o Amazon Redshift.

c) Migliora la sicurezza aziendale con un meccanismo di controllo degli accessi integrato che protegge i dati quando vi si accede da servizi AWS integrati, come Amazon Redshift, Amazon Athena o Amazon EMR oppure motori di terze parti compatibili con Apache Iceberg.

SageMaker Lakehouse è accessibile direttamente da Amazon SageMaker Unified Studio (anteprima). I dati provenienti da diverse origini sono organizzati in container logici chiamati cataloghi in SageMaker Lakehouse. Ogni catalogo rappresenta dati provenienti da origini dati esistenti come data warehouse, data lake o database di Amazon Redshift. È possibile creare nuovi cataloghi direttamente nel lakehouse per archiviare i dati in Amazon S3 o Amazon Redshift Managed Storage (RMS). È possibile accedere ai dati in SageMaker Lakehouse da motori compatibili con Apache Iceberg come Apache Spark, Athena o Amazon EMR. Inoltre, questi cataloghi possono essere individuati come database nei data warehouse di Amazon Redshift, consentendoti di utilizzare i tuoi strumenti SQL e analizzare i dati del tuo lakehouse.

Funzionalità

SageMaker Lakehouse unifica il controllo degli accessi ai dati con due funzionalità: 1) SageMaker Lakehouse consente di definire autorizzazioni granulari. Queste autorizzazioni vengono applicate da motori di query come Amazon EMR, Athena e Amazon Redshift. 2) SageMaker Lakehouse consente di accedere direttamente ai tuoi dati, eliminando la necessità di farne delle copie. È possibile mantenere una singola copia dei dati e un unico set di policy di controllo degli accessi per usufruire del controllo unificato e granulare degli accessi in SageMaker Lakehouse.

SageMaker Lakehouse è basato su più cataloghi tecnici, tra cui il Catalogo dati AWS Glue, Lake Formation e Amazon Redshift per fornire un accesso unificato ai dati tra data lake e data warehouse. SageMaker Lakehouse utilizza il Catalogo dati AWS Glue e Lake Formation per archiviare le definizioni e le autorizzazioni delle tabelle. Le autorizzazioni dettagliate di Lake Formation sono disponibili per le tabelle definite in SageMaker Lakehouse. Puoi gestire le definizioni delle tabelle nel Catalogo dati AWS Glue e definire autorizzazioni granulari, ad esempio a livello di tabella, a livello di colonna e a livello di cella, per proteggere i tuoi dati. Inoltre, utilizzando le funzionalità di condivisione dei dati tra account, puoi abilitare la condivisione senza copie per rendere disponibili i dati per una collaborazione sicura.

Sì. La libreria client open source di Apache Iceberg è necessaria per accedere a SageMaker Lakehouse. I clienti che utilizzano motori open source di terze parti o autogestiti come Apache Spark o Trino devono includere la libreria client di Apache Iceberg nei loro motori di query per accedere a SageMaker Lakehouse.

Sì, tramite una libreria client di Apache Iceberg, puoi leggere e scrivere dati sul tuo Amazon Redshift esistente dai motori Apache Spark su servizi AWS come Amazon EMR, AWS Glue, Athena e Amazon SageMaker o Apache Spark di terze parti. Tuttavia, è necessario disporre delle autorizzazioni di scrittura appropriate relative alle tabelle per scrivere dati su di esse.

Sì, puoi unire le tabelle del tuo data lake su Amazon S3 con quelle del tuo data warehouse Amazon Redshift su più database utilizzando un motore a tua scelta, come Apache Spark.

Migrazione

No, non è necessario eseguire la migrazione dei dati per utilizzare SageMaker Lakehouse. SageMaker Lakehouse consente di accedere ed eseguire query sui tuoi dati sul posto, con lo standard aperto di Apache Iceberg. Puoi accedere direttamente ai tuoi dati nei data lake di Amazon S3 e nei data warehouse di Amazon Redshift. I dati provenienti da database e applicazioni operativi possono essere inseriti nel lakehouse quasi in tempo reale attraverso le integrazioni Zero-ETL disponibili, senza dover mantenere infrastrutture o pipeline complesse. Puoi anche utilizzare funzionalità di query federate per accedere ai tuoi dati sul posto. Oltre a queste, puoi utilizzare centinaia di connettori AWS Glue per l'integrazione con le tue origini dati esistenti.

Se sei già un utente Amazon Redshift, puoi registrare il tuo data warehouse Amazon Redshift con SageMaker Lakehouse in pochi semplici passaggi e senza eseguire la migrazione dei tuoi dati. Segui i passaggi indicati nella guida per gli sviluppatori.

Se hai configurato il tuo data lake Amazon S3 utilizzando il Catalogo dati AWS Glue, non devi apportare alcuna modifica.

Integrazioni Zero-ETL

SageMaker Lakehouse supporta integrazioni Zero-ETL con Amazon DynamoDB, Amazon Aurora e Amazon RDS per MySQL e otto applicazioni: Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, Facebook ads, Instagram ads, Zendesk e SAP.

Puoi configurare e monitorare le tue integrazioni Zero-ETL tramite la console AWS Glue all'interno di Amazon SageMaker Data Processing con AWS Glue. Una volta inseriti i dati, è possibile accedere ed eseguire query sui dati dai motori di query compatibili con Apache Iceberg. Per maggiori dettagli, visita la pagina sulle integrazioni Zero-ETL.

Per ulteriori informazioni, visita le pagine dei prezzi di SageMaker Lakehouse e AWS Glue.

Prezzi

Visita la pagina dei prezzi di SageMaker Lakehouse per maggiori dettagli.

Disponibilità

SageMaker Lakehouse è disponibile negli Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Asia Pacifico (Hong Kong), Asia Pacifico (Seoul), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), Canada (Centrale), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Stoccolma) e Sud America (San Paolo).

Sì. SageMaker Lakehouse archivia i metadati nel Catalogo dati AWS Glue e offre lo stesso SLA di Amazon Glue.

Nozioni di base

Per iniziare, puoi accedere al tuo dominio SageMaker utilizzando le tue credenziali aziendali (ad esempio, Okta) su SageMaker Unified Studio. In SageMaker Unified Studio, gli amministratori possono creare progetti in pochi passaggi scegliendo un profilo di progetto specifico. È quindi possibile scegliere un progetto con cui lavorare con SageMaker Lakehouse. Una volta selezionato un progetto, ottieni una visione unificata di dati, motori di query e strumenti per sviluppatori in un unico posto. Utenti come ingegneri e analisti dei dati possono quindi eseguire query sui dati utilizzando uno strumento a loro scelta. Ad esempio, quando un ingegnere dei dati utilizza un notebook ed esegue il comando Spark per elencare le tabelle, individua tutte le tabelle del data warehouse e del data lake a cui ha accesso. Possono quindi eseguire comandi per leggere e scrivere dati nelle tabelle archiviate fisicamente nei data lake di Amazon S3 o nei data warehouse di Amazon Redshift. Allo stesso modo, quando un analista dei dati esegue i comandi SQL di Amazon Redshift da un editor SQL, ottiene la stessa visualizzazione unificata dei dati e può leggerli e scriverli in queste tabelle. Con i tuoi strumenti preferiti (editor SQL o notebook), puoi creare nuove tabelle in Amazon S3 o Amazon Redshift. Esegui query su viste materializzate di Amazon Redshift per accelerare le prestazioni sulle tabelle dei tuoi data lake. Oltre a SageMaker Unified Studio, SageMaker Lakehouse è accessibile anche dalla Console di gestione AWS, dalle API AWS Glue, dall'Interfaccia della linea di comando AWS (AWS CLI) o dagli SDK AWS. Per ulteriori informazioni, consulta la pagina Documentazione.