Glue를 선택해야 하는 이유
AWS Glue에서는 크롤러(데이터 검색) 및 추출, 전환, 적재(ETL) 작업(데이터 처리 및 로딩)에 대해 초 단위로 청구되는 시간당 요금을 지불합니다. AWS Glue 데이터 카탈로그의 경우 메타데이터 저장 및 액세스에 대해 단순 월 요금을 지불하면 됩니다. 저장된 처음 1백만 개의 객체는 무료이며 처음 1백만 번의 액세스도 무료입니다. ETL 코드를 대화식으로 개발할 수 있도록 개발 엔드포인트를 프로비저닝한 경우, 초 단위로 청구되는 시간당 요금을 지불합니다. AWS Glue DataBrew의 경우 대화형 세션은 세션별 요금이 청구되고 DataBrew 작업은 분당 요금이 청구됩니다. AWS Glue Schema 레지스트리는 무료로 사용할 수 있습니다.
참고: 요금은 AWS 리전별로 다를 수 있습니다.
-
ETL 작업 및 대화형 세션
-
데이터 카탈로그
-
크롤러
-
DataBrew 대화형 세션
-
DataBrew 작업
-
데이터 품질
-
ETL 작업 및 대화형 세션
-
요금 예제
ETL 작업: 15분간 실행되고 DPU 6개를 사용하는 AWS Glue Apache Spark 작업이 있습니다. DPU 시간당 요금은 0.44 USD입니다. 작업이 한 시간의 1/4 동안 실행되었고 6개 단위의 DPU를 사용했으므로 DPU 6개 * 1/4시간 * 0.44 USD 또는 0.66 USD가 청구됩니다.
AWS Glue Studio Job Notebooks 및 대화형 세션: AWS Glue Studio에서 노트북을 사용하여 대화형으로 ETL 코드를 개발한다고 가정합니다. 대화형 세션에는 기본적으로 5개 단위의 DPU가 포함됩니다. 세션을 24분, 즉 2/5시간 동안 실행하는 경우 DPU 시간당 0.44 USD를 기준으로 5개 DPU * 2/5시간, 즉 0.88 USD가 청구됩니다.
기계 학습 변환: AWS Glue 작업 실행과 유사하게 데이터에서 FindMatches를 포함한 ML 변환 실행 비용은 데이터 크기, 데이터 내용 및 사용하는 노드 수와 유형에 따라 다릅니다. 다음 예에서는 FindMatches를 사용하여 여러 데이터 원본의 관심 지점 정보를 통합했습니다. 1,100만 개 행 이하(1.6GB)의 데이터 세트 크기, 8,000행 이하(641KB)의 레이블 데이터 크기(실제 일치 또는 실제 일치 안 함 예)를 사용하여 유형 G.2x의 16개 인스턴스에서 실행하면 34분의 레이블 세트 생성 런타임은 8.23 USD이고 11분의 지표 추정 런타임은 2.66 USD이며 32분의 FindingMatches 작업 실행 런타임은 7.75 USD입니다.
-
데이터 카탈로그
-
요금 예제
AWS Glue 데이터 카탈로그 프리 티어: 어떤 달에 데이터 카탈로그에 1백만 개의 테이블을 저장하고 이러한 테이블에 액세스하도록 1백만 번의 요청을 수행한다고 가정해 보겠습니다. 사용량이 AWS Glue 데이터 카탈로그 프리 티어 범위 내에 있으므로 0 USD를 지불하게 됩니다. 매월 무료로 처음 1백만 개의 객체를 저장하고 1백만 번의 요청을 수행할 수 있습니다.
AWS Glue 데이터 카탈로그: 이제 스토리지 사용량은 월별 1백만 개의 테이블 그대로이지만, 요청이 두 배 증가하여 월별 2백만 건이라고 가정해 보겠습니다. 또한 크롤러를 사용하여 새로운 테이블을 찾고 크롤러가 30분 동안 실행되며 2개의 DPU를 사용한다고 가정해 보겠습니다.
처음 1백만 개의 테이블에 대한 스토리지가 무료이므로 스토리지 비용은 여전히 0 USD입니다. 처음 1백만 건의 요청도 무료입니다. 프리 티어를 초과하는 1백만 건의 요청에 대해 1 USD의 요금이 청구됩니다. 크롤러에는 DPU 시간당 0.44 USD가 청구됩니다. 따라서 DPU 시간당 0.44 USD를 기준으로 2 DPU * 1/2시간의 비용, 즉 0.44 USD가 청구됩니다.
Glue 테이블에 대한 통계를 생성하고 통계 실행에 10분이 걸리며 DPU 1개를 사용하는 경우 1 DPU * 1/6시간 * 0.44 USD/DPU-시간에 해당하는 0.07 USD가 청구됩니다.
Apache Iceberg 테이블을 압축하고 압축을 30분 동안 실행하며 DPU 2개를 사용하는 경우 DPU 2개 * 1/2시간 * 0.44 USD/DPU-시간에 해당하는 0.44 USD가 청구됩니다. -
크롤러
-
-
DataBrew 대화형 세션
-
요금 예제
AWS Glue DataBrew: 30분 대화형 세션당 요금은 1.00 USD입니다. 오전 9:00에 세션을 시작하고 즉시 콘솔에서 나간 후 오전 9:20~오전 9:30에 돌아올 경우 1개 세션이 활용되고 총 요금은 1 USD입니다.
오전 9:00에 세션을 시작하고 오전 9:50까지 DataBrew 콘솔에서 상호 작용한 후 DataBrew 프로젝트 공간에서 나갔다가 오전 10:15에 돌아와서 마지막으로 상호 작용하는 경우 3개 세션이 활용되고 세션당 1 USD의 요금으로 총 3 USD가 청구됩니다.
-
DataBrew 작업
-
요금 예제
AWS Glue DataBrew: DataBrew 작업을 10분간 실행하고 5개의 DataBrew 노드를 소비하는 경우 요금은 0.40 USD입니다. 작업에 1/6시간이 걸렸고 5개의 노드를 사용했으므로 노드 시간당 0.48 USD로 노드 5개 * 1/6시간, 총 0.40 USD가 청구됩니다.
-
데이터 품질
-
AWS Glue Data Quality은 높은 데이터 품질을 달성하도록 지원하여 데이터에 대한 신뢰를 구축합니다. 이 서비스는 데이터 레이크 및 파이프라인의 데이터 품질을 자동으로 측정하고 모니터링하며 관리함으로써 누락되거나, 오래되거나, 잘못된 데이터를 쉽게 식별할 수 있습니다.
Data Catalog 및 AWS Glue Studio에서 또는 AWS Glue API를 통해 데이터 품질 기능에 액세스할 수 있습니다.
Data Catalog에서 카탈로그에 저장된 데이터세트의 데이터 품질 관리 요금:Data Catalog에서 데이터세트를 선택하고 권장 사항을 생성할 수 있습니다. 이 작업은 데이터 처리 장치(DPU)를 프로비저닝할 권장 사항 작업을 생성합니다. 권장 사항을 받은 후 새 규칙을 수정하거나 추가하고 예약할 수 있습니다. 이러한 작업을 DPU를 프로비저닝할 데이터 품질 작업이라고 합니다. 최소 청구 기간은 1분으로 최소 2개의 DPU가 필요합니다.
AWS Glue ETL에서 처리된 데이터세트의 데이터 품질 관리 요금:데이터 품질 검사를 ETL 작업에 추가하여 잘못된 데이터가 데이터 레이크에 들어가는 것을 방지할 수도 있습니다. 이러한 데이터 품질 규칙은 ETL 작업 내에 상주하므로 런타임이 증가하거나 DPU 소비가 증가합니다. 또는 SLA에 민감하지 않은 워크로드에 유연한 실행을 사용할 수 있습니다.
AWS Glue ETL에서 이상 현상을 탐지하기 위한 요금:
이상 탐지:
이상 현상을 탐지하는 데 걸리는 시간 동안 ETL 작업 DPU 외에 통계당 1 DPU가 발생합니다. 평균적으로 1개 통계에서 이상 현상을 탐지하는 데 10~20초가 걸립니다. 2개의 규칙(규칙 1: 데이터 볼륨이 레코드 1000개 이상이어야 함, 규칙 2: 열 수가 10보다 커야 함)과 1개의 분석기(분석기 1: 열의 완전성 모니터링)를 구성했다고 가정해 보겠습니다. 이 구성은 행 수, 열 수 및 열의 완전성 백분율이라는 세 가지 통계를 생성합니다. 이상 현상을 탐지하는 데 걸리는 시간(최소 1초) 동안 DPU 3개가 추가로 청구됩니다. 자세한 내용은 예제 - 4를 참조하세요.
재훈련:
이상 탐지 알고리즘이 후속 이상 현상을 정확하게 예측하도록 이상 작업 실행 또는 통계를 제외해야 할 수 있습니다. 이를 위해 AWS Glue를 사용하면 통계를 제외 또는 포함할 수 있습니다. 모델을 재훈련하는 데 걸리는 시간 동안 모델 재훈련을 위한 1DPU가 발생합니다. 평균적으로 재훈련에는 통계당 10초~20분이 소요됩니다. 자세한 내용은 예제 5를 참조하세요.
통계 저장:
수집된 통계는 무료로 저장할 수 있습니다. 통계는 계정당 100,000개로 제한되며 2년 동안 저장됩니다.
추가 요금:
AWS Glue는 Amazon Simple Storage Service(Amazon S3)에서 직접 데이터를 처리합니다. AWS Glue로 데이터를 읽는 데 드는 스토리지 추가 비용은 없습니다. 스토리지, 요청 및 데이터 전송에 대한 표준 Amazon S3 요금이 부과됩니다. 구성에 따라 임시 파일, 데이터 품질 결과 및 셔플 파일은 선택한 S3 버킷에 저장되며 표준 S3 요율로 청구됩니다.
데이터 카탈로그를 사용하면, 표준 데이터 카탈로그 요금이 부과됩니다. 자세한 내용은 Data Catalog 스토리지 및 요청 탭을 선택하세요.
요금 예제
예제 1 – 데이터 카탈로그의 테이블에 대한 권장 사항 가져오기예를 들어 10분 안에 완료되는 5개의 DPU가 있는 추천 작업을 생각해 보십시오. 5 DPU * 1/6시간 * 0.44 USD를 지불하게 되며 이는 0.37 USD과 같습니다.
예제 2 – 데이터 카탈로그에서 테이블의 데이터 품질 평가권장 사항을 검토한 후 필요한 경우 편집한 다음 DPU를 프로비저닝하여 데이터 품질 작업을 예약할 수 있습니다. 예를 들어 20분 안에 완료되는 5개의 DPU가 있는 데이터 품질 평가 작업을 생각해 보십시오.
5 DPU * 1/3시간 * 0.44 USD를 지불하게 되며 이는 0.73 USD과 같습니다.
예제 3 – AWS Glue ETL 작업에서 데이터 품질 평가이러한 데이터 품질 검사를 AWS Glue ETL 작업에 추가하여 잘못된 데이터가 데이터 레이크에 들어가는 것을 방지할 수도 있습니다. AWS Glue Studio에서 Data Quality Transform을 추가하거나 AWS Glue Studio 노트북에서 작성한 코드 내에서 AWS Glue API를 사용하여 이를 수행할 수 있습니다. 6개의 DPU로 20분(1/3시간) 동안 실행되는 파이프라인 내에서 데이터 품질 규칙이 구성된 곳에서 실행되는 AWS Glue 작업을 생각해 보십시오. 6 DPU * 1/3시간 *0.44 USD가 청구되며 이는 0.88 USD와 같습니다 또는 Flex를 사용할 수 있으며 이에 대해 6 DPU * 1/3시간 * 0.29 USD(0.58 USD)가 청구됩니다.
예제 4 - 이상 탐지를 사용하여 AWS Glue ETL 작업에서 데이터 품질 평가
Amazon S3에서 데이터를 읽고, 데이터를 변환하고, Amazon Redshift로 로드하기 전에 데이터 품질 검사를 실행하는 AWS Glue 작업을 생각해 보십시오. 이 파이프라인에 10개의 규칙과 10개의 분석기가 있어 20개의 통계가 수집되었다고 가정하겠습니다. 또한 추출, 변환 프로세스, 로드, 통계 수집, 데이터 품질 평가에 20분이 걸린다고 가정하겠습니다. 이상 탐지를 활성화하지 않으면 고객에게 6 DPU * 1/3시간(20분) * 0.44 USD = 0.88 USD(A)의 요금이 부과됩니다. 이상 탐지를 활성화하면 모든 통계에 대해 1개의 DPU가 추가되고, 이상 현상을 탐지하는 데 평균 15초가 걸립니다. 이 예제에서는 고객에게 20개 통계 * 1 DPU * 15/3600(통계당 0.0041시간) * 0.44 USD(DPU당 1시간 비용) = 0.037 USD(B)가 발생합니다. 총 작업 비용은 0.88 USD(A) + 0.037 USD(B) = 0.917 USD입니다.
예제 5 - 재훈련Glue 작업에서 이상 현상이 감지되었다고 생각해 보겠습니다. 이상 탐지 알고리즘이 미래의 이상 현상을 정확하게 예측할 수 있도록 모델에서 이상 현상을 제외하기로 결정합니다. 이렇게 하려면 이 이상 통계를 제외하여 모델을 다시 훈련할 수 있습니다. 모델을 재훈련하는 데 걸리는 시간 동안 통계당 1 DPU가 발생합니다. 평균적으로 15초가 걸릴 수 있습니다. 이 예제에서는 데이터 포인트 1개를 제외한다고 가정하면 1개 통계 * 1 DPU * 15/3600(통계당 0.0041시간) * 0.44 USD = 0.00185 USD가 발생합니다.
참고: 요금은 리전별로 다를 수 있습니다.
AWS Glue의 제공 여부에 대해 자세히 알아보려면 글로벌 리전 표를 확인하십시오.