제품›
분석›
AWS Glue

AWS 프리 티어를 사용하여 무료로 저장되는 1백만 개의 객체

AWS Glue

모든 데이터를 대규모로 검색, 준비 및 통합

AWS Glue 시작하기

AWS 데이터 통합에 대해 자세히 알아보기

AWS Glue를 사용해야 하는 이유는 무엇인가요?

분석 또는 ML 프로젝트의 첫 번째 단계는 품질 좋은 결과가 나오도록 데이터를 준비하는 것입니다. AWS Glue는 더 저렴한 비용으로 더 간편하고 빠르게 데이터를 준비할 수 있는 서버리스 데이터 통합 서비스입니다. 100개 이상의 다양한 데이터 소스를 찾아서 연결하고, 중앙 집중식 데이터 카탈로그에서 데이터를 관리하며, 데이터를 데이터 레이크에 로드하는 ETL 파이프라인을 시각적으로 생성, 실행, 모니터링할 수 있습니다. 기본 제공 생성형 AI 기능을 사용하면 ETL 작성 및 Spark 문제 해결을 위한 지능형 지원을 통해 Spark 작업을 현대화하고 개발 속도를 높일 수 있습니다.

AWS Glue 소개(01:54)

AWS Glue의 이점

모든 워크로드 지원

공급업체 종속 없이 ETL, ELT, 배치, 스트리밍 등을 유연하게 지원합니다.

온디맨드 확장성

페타바이트 규모, 사용한 만큼 지불하는 결제 방식, 모든 데이터 크기

맞춤형 도구

개발자부터 비즈니스 사용자까지 모든 데이터 사용자 지원

생성형 AI 지원

ETL 코드 자동 생성부터 Spark 작업 현대화까지 데이터 통합 여정 전반에서 AI 기반 지원을 받으세요. AWS Glue는 지능형 코드 생성, AI 지원 Spark 업그레이드(평가판), 기본 제공 Spark 문제 해결(평가판)을 제공합니다.

올인원

단일 서버리스 서비스에서 포괄적인 데이터 통합 기능 제공

작동 방식

AWS Glue는 분석, 기계 학습(ML) 및 애플리케이션 개발을 위해 여러 소스에서 데이터를 쉽게 탐색, 준비, 이동 및 통합할 수 있도록 하는 확장 가능한 서버리스 데이터 통합 서비스입니다.

데이터 통합 엔진 옵션
AWS Glue에서 사용자 및 워크로드를 지원하기에 적합한 데이터 통합 엔진을 선택하세요.

이 다이어그램은 AWS Glue 사용자가 인터페이스 옵션에서 여러 데이터 통합 엔진을 선택하여 작업 워크로드를 생성하는 방법을 보여줍니다. 왼쪽에 1개, 가운데에 2개, 오른쪽에 1개의 4개 섹션이 표시되어 있습니다.

왼쪽의 첫 번째 섹션은 ‘데이터 소스’입니다. ‘Amazon S3’, ‘Amazon DynamoDB’, ‘Amazon EC2에서 실행되는 데이터베이스’, ‘Databases’ 및 ‘SaaS’라는 데이터 소스가 포함되어 있습니다.

첫 번째 섹션에는 가운데 섹션의 ‘인터페이스 선택’ 다이어그램 위를 가리키는 화살표가 있습니다. 이 두 번째 섹션에는 ‘AWS Glue Studio’, ‘Amazon SageMaker 노트북’, ‘노트북 및 IDE’라는 3개의 항목이 있습니다.

이 두 번째 섹션 아래에는 ‘개방형 인터페이스는 대화형 워크로드 및 작업 워크로드를 지원합니다’라는 텍스트가 있습니다. 이 텍스트에는 이전에 설명된 위의 두 번째 섹션을 가리키는 화살표와 아래의 세 번째 섹션을 가리키는 화살표가 있습니다.

이 세 번째 섹션은 ‘데이터 통합 엔진’입니다. ‘자동 크기 조정 및 사용량에 따른 요금을 제공하는 서버리스 방식의 확장 가능한 데이터 처리 엔진을 선택합니다’라는 텍스트가 있습니다. 이 섹션에는 ‘AWS Glue for Ray’, ‘AWS Glue for Python Shell’ 및 ‘AWS Glue for Apache Spark’라는 3가지 엔진 이름이 포함되어 있습니다.

네 번째 섹션은 두 번째 섹션의 오른쪽에 두 번째 섹션에서 네 번째 섹션을 가리키는 화살표와 함께 나타납니다. 네 번째 섹션에는 ‘데이터 레이크 및 데이터 웨어하우스로 데이터를 생성하고 로드합니다’라는 텍스트가 있습니다. 이 섹션에는 ‘Amazon Redshift’, ‘데이터 레이크’ 및 ‘데이터 웨어하우스’라는 3개의 항목도 있습니다.

확대하려면 클릭
이벤트 기반 ETL
AWS Glue를 사용하면 새 데이터가 도착하는 대로 추출, 전환, 적재(ETL) 작업을 실행할 수 있습니다. 예를 들어 Amazon Simple Storage Service(S3)에서 새 데이터를 사용할 수 있게 되는 즉시 실행할 ETL 작업을 시작하도록 AWS Glue를 구성할 수 있습니다.
AWS Glue 데이터 카탈로그
데이터 카탈로그를 사용하면 데이터를 이동하지 않고도 여러 AWS 데이터 세트 전체에서 신속하게 데이터를 검색할 수 있습니다. 일단 데이터가 카탈로그에 저장되면 Amazon Athena, Amazon EMR 및 Amazon Redshift Spectrum에서 즉시 검색 및 쿼리에 데이터를 사용할 수 있습니다.
노 코드 ETL 작업
AWS Glue Studio를 사용하면 AWS Glue ETL 작업을 시각적으로 간편하게 생성, 실행 및 모니터링할 수 있습니다. 드래그 앤 드롭 방식의 편집기를 사용하여 데이터를 이동 및 변환하는 ETL 작업을 구축할 수 있으며 AWS Glue가 자동으로 코드를 생성합니다.
데이터 품질 관리 및 모니터링
AWS Glue Data Quality는 데이터 품질 규칙 생성, 관리 및 모니터링을 자동화하여 데이터 레이크 및 파이프라인 전체의 데이터 품질을 높게 유지할 수 있도록 합니다.

이 다이어그램은 AWS Glue Data Quality를 사용하여 규칙 권장 사항을 생성하고, 데이터 품질을 모니터링하며, 데이터 품질 저하 시 알림을 전송하는 방법을 보여줍니다. 왼쪽에서 오른쪽으로 3개의 섹션이 표시됩니다.

첫 번째 섹션에는 AWS Glue 데이터 카탈로그와 AWS Glue ETL에 대한 그림이 있습니다. AWS Glue 데이터 카탈로그 아래에는 ‘데이터 레이크의 모든 데이터 세트를 카탈로그로 작성합니다’라는 설명이 있습니다. AWS Glue ETL 아래에는 ‘개별 데이터 소스의 데이터를 통합하고 변환합니다’라는 설명이 있습니다.

두 번째 섹션의 제목은 ‘AWS Glue Data Quality’입니다. 이 섹션에는 3개의 아이콘이 있습니다. 첫 번째는 체크리스트입니다. 그 아래에는 ‘데이터 품질 규칙 권장 사항. 자동 데이터 품질 규칙 권장 사항으로 빠르게 시작합니다’라고 쓰여 있습니다. 두 번째 아이콘은 연필입니다. 그 아래에는 ‘미리 구성된 데이터 품질 규칙. 미리 구성된 데이터 품질 규칙으로 권장 사항을 편집하거나 보완합니다’라고 쓰여 있습니다. 세 번째 아이콘은 종입니다. 그 아래에는 ‘알림 및 조치. 데이터 품질 저하 시 수행할 조치와 알림을 추가합니다’라고 쓰여 있습니다.

세 번째 섹션에는 2개의 아이콘이 겹쳐져 있습니다. 첫 번째 아이콘은 막대 차트입니다. 그 아래에는 ‘지표. 데이터 품질 지표를 사용하여 확실한 비즈니스 의사 결정을 내립니다’라고 쓰여 있습니다. 두 번째 아이콘은 경고 기호입니다. 그 아래에는 ‘알림. 알림을 사용하여 품질 저하 시 알림을 받고 조치를 취해 데이터를 수정합니다’라고 쓰여 있습니다.

확대하려면 클릭
데이터 준비
AWS Glue DataBrew를 사용하면 Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora 및 Amazon Relational Database Service(RDS)를 비롯한 데이터 레이크, 데이터 웨어하우스 및 데이터베이스에서 직접 데이터를 탐색하고 데이터로 실험할 수 있습니다. DataBrew의 사전 구축된 250여 개의 변환 중에서 선택하여 이상 항목 필터링, 형식 표준화, 잘못된 값 수정 등의 데이터 준비 작업을 자동화할 수 있습니다.

또한 AWS Glue Studio는 코드를 작성하지 않고도 대화형 포인트 앤 클릭 시각적 인터페이스로 데이터를 준비하는 데 사용할 수 있는 데이터 준비 도구입니다.

사용 사례

대화식으로 데이터 탐색, 실험 및 처리

데이터 엔지니어는 AWS Glue 대화형 세션을 사용하여 원하는 통합 개발 환경(IDE) 또는 노트북을 통해 대화형으로 데이터를 탐색하고 준비할 수 있습니다.

AWS Glue 대화형 세션에 대해 자세히 알아보기

효율적인 데이터 검색

AWS, 온프레미스 및 기타 클라우드 전반에서 데이터를 신속하게 식별한 다음 쿼리 및 변환에 즉시 사용할 수 있도록 합니다.

AWS Glue 데이터 카탈로그에 대해 자세히 알아보기

ETL 파이프라인 관리 간소화

자동 프로비저닝 및 작업자 관리를 통해 인프라 관리 필요성을 제거하고 모든 데이터 통합 요구 사항을 단일 서비스로 통합합니다.

AWS Glue Auto Scaling에 대해 자세히 알아보기

다양한 처리 프레임워크 및 워크로드 지원

ETL, ELT 등 다양한 데이터 처리 프레임워크와, 배치, 마이크로 배치, 스트리밍 등 다양한 워크로드를 보다 쉽게 지원합니다.

스트리밍 ETL 작업에 대해 자세히 알아보기

새로운 소식

결과를 찾을 수 없음

1 …

…

Glue 시작하기

무료로 AWS Glue 사용해 보기

AWS Glue로 구축

데이터 통합

개발자 안내서 살펴보기

오늘 원하는 내용을 찾으셨나요?

페이지의 콘텐츠 품질을 개선할 수 있도록 피드백을 보내 주세요.

AWS 자세히 살펴보기