사용자의 기술과 분석 워크로드에 맞는 올바른 데이터 통합 엔진 선택
Witten by Minhyeok Cha
개요
AWS Glue는 사용자와 워크로드를 지원하기 위한 여러 데이터 통합 엔진을 제공하는 서버리스 데이터 통합 서비스입니다. AWS Glue를 통해 워크로드의 특성과 개발자 및 애널리스트의 선호도를 기준으로 모든 워크로드에 맞는 적절한 엔진을 사용할 수 있습니다.
AWS Glue 작동 방식
데이터 통합 엔진 옵션
AWS Glue에서 사용자 및 워크로드를 지원하기에 적합한 데이터 통합 엔진을 선택하세요.
AWS Glue를 사용해야 하는 이유는 무엇인가요?
분석 또는 ML 프로젝트의 첫 번째 단계는 품질 좋은 결과가 나오도록 데이터를 준비하는 것입니다. AWS Glue는 더 저렴한 비용으로 더 간편하고 빠르게 데이터를 준비할 수 있는 서버리스 데이터 통합 서비스입니다. 70개 이상의 다양한 데이터 소스를 찾아서 연결하고, 중앙 집중식 데이터 카탈로그에서 데이터를 관리하며 데이터를 데이터 레이크에 로드하는 ETL 파이프라인을 시각적으로 생성, 실행 및 모니터링할 수 있습니다.
주요 기능
AWS Glue for Apache Spark
AWS Glue는 데이터 통합 및 추출, 전환, 적재(ETL) 작업을 위해 Apache Spark를 실행할 수 있는 성능 최적화, 서버리스 인프라를 제공합니다. AWS Glue for Apache Spark는 배치 및 스트림 처리를 지원하고, 데이터 모으기, 처리 및 통합 속도를 높입니다. 그런 다음 데이터 레이크 및 데이터 웨어하우스를 생성 및 업데이트하고 데이터의 인사이트를 더 빠르게 추출할 수 있습니다.
AWS Glue for Ray
AWS Glue for Ray를 통해 데이터 엔지니어 및 개발자는 Python 및 주요 Python 라이브러리를 사용하여 대규모 데이터 세트를 처리할 수 있습니다. AWS Glue는 Python 워크로드를 확장하는 데 사용하는 오픈 소스 통합 컴퓨팅 프레임워크인 Ray(Ray.io)를 사용합니다. AWS Glue for Ray에는 주요 Python 데이터 처리 라이브러리가 포함되어 있어 자체 라이브러리를 사용해 데이터 통합 작업을 사용자 지정할 수 있습니다.
AWS Glue for Python Shell
AWS Glue for Python Shell을 통해 Python 셸 작업을 사용하여 AWS Glue에서 Python 스크립트를 실행할 수 있습니다. 이러한 작업을 활용하면 복잡한 데이터 통합 및 분석 작업을 Python으로 작성할 수 있습니다. 이제 AWS Glue for Python Shell 작업에서 Pandas, NumPy 및 Amazon SageMaker Data Wrangler를 포함하여 즉시 사용할 수 있는 일반 분석 라이브러리를 제공합니다. 번들 형태로 제공된 기능을 사용하여 다양한 데이터베이스, 데이터 웨어하우스 및 AWS 서비스에 연결할 수 있습니다.
※스마일샤크가 제공하는 모든 콘텐츠는 관련 법의 보호를 받습니다. 스마일샤크 콘텐츠를 사전허가 없이 무단으로 복사·배포·판매·전시·개작할 경우 민·형사상 책임이 따를 수 있습니다. 콘텐츠 사용과 관련해 궁금한 점이 있으면 전화(☎:0507-1485-2028) 또는 이메일(contact@smileshark.kr)로 문의하기 바랍니다.
Comentarios