Alibaba Cloud Elastic MapReduce(EMR)은 Alibaba Cloud 플랫폼에서 실행되는 빅 데이터 처리 솔루션입니다. EMR은 Alibaba Cloud ECS 인스턴스에서 구축되며 오픈소스 Apache Hadoop 및 Apache Spark를 기반으로 합니다. EMR은 Apache Hive, Apache Kafka, Flink, Druid 및 TensorFlow와 같은 Hadoop 및 Spark 에코시스템 구성 요소를 사용하여 데이터를 분석하고 처리할 수 있습니다. 또한 EMR을 통해 Object Storage Service(OSS), Log Service(SLS) 및 Relational Database Service(RDS)와 같은 다양한 Alibaba Cloud 데이터 스토리지 서비스에 저장된 데이터를 처리할 수 있습니다.
혜택
-
사용 편리성
하드웨어와 소프트웨어를 구성할 필요 없이 클러스터를 빠르게 생성할 수 있습니다. 모든 유지보수 작업은 웹 인터페이스에서 완료됩니다.
-
비용 효율성
클러스터를 생성하고 현재 컴퓨팅 요건에 따라 컴퓨팅 노드 수를 다이내믹하게 확장하거나 축소할 수 있습니다.
-
안정성
EMR은 고도로 최적화된 클러스터 환경, 자동화된 백그라운드 유지보수 및 여러 온라인 지원 채널을 제공합니다.
-
보안
EMR은 Kerberos 인증 및 데이터 암호화를 지원합니다. RAM 사용자를 통해 서비스 권한 관리를 세분화할 수 있습니다.
특징
자동화된 클러스터 배포 및 확장
하드웨어와 소프트웨어를 관리할 필요 없이 웹 인터페이스에서 클러스터를 신속하게 배포하고 확장할 수 있습니다.
클러스터 생성
Hadoop, Kafka, Druid 및 ZooKeeper와 같은 여러 유형의 클러스터를 신속하게 배포할 수 있습니다.
클러스터 확장
기존 클러스터에 모든 유형의 노드를 빠르게 추가할 수 있습니다.
예약된 클러스터 생성
클러스터 생성 계획을 실행하고, 예약된 시간에 작업을 수행하며, 작업 수행 후 클러스터를 해제할 수 있습니다.
자동 구성 요소 배포
필요에 따라 구성 요소를 추가, 구성 및 유지 관리할 수 있습니다.
동적 확장
지정된 시간에 클러스터 컴퓨팅 리소스를 확대 및 축소하여 총 소유 비용(TCO)을 줄일 수 있습니다.
워크플로우 스케줄링
EMR은 간단한 job orchestration 및 스케줄링을 제공합니다.
작업 편집 및 관리
EMR은 여러 유형의 작업을 실행하고 조직할 수 있도록 그래픽 작업 편집 및 관리를 지원합니다.
워크플로우 스케줄링
EMR은 작업 및 종속성 스케줄링을 지원합니다. 작업을 DAG 기반 워크플로우로 조정하고 스케줄링할 수 있습니다.
동적 클러스터
EMR을 사용하여 예약된 시간에 작업을 실행하는 임시 클러스터를 시작하고 작업 실행 후 클러스터를 중지할 수 있습니다.
작업 실행 보장
EMR이 작업 수행에 실패하면, 즉시 경보가 발령됩니다. 작업을 자동으로 다시 실행하도록 EMR을 설정할 수도 있습니다.
다수의 components
EMR은 여러 component를 제공합니다.
Hadoop
페타바이트급 저장 용량과 컴퓨팅 역량을 갖춘 빅 데이터 처리 플랫폼.
Spark
오프라인 및 실시간 컴퓨팅, SQL 구문 및 머신러닝을 지원하는 메모리 기반의 차세대 분산 컴퓨팅 프레임워크.
Hive
Hadoop 기반의 오프라인 데이터 처리 시스템. Hive는 하둡 분산형 파일 시스템(Hadoop Distributed File System, HDFS) 기반의 구조화된 테이블 관리를 지원하며 데이터 분석 및 처리를 위해 SQL과 유사한 쿼리 구문을 제공합니다.
Kafka
안정적인 고처리량 분산 message publication 및 subscription 시스템.
Storm
밀리초 이내의 실시간 데이터 처리를 지원하는 실시간 컴퓨팅 엔진.
ZooKeeper
분산 애플리케이션의 일관성을 보장할 수 있는 분산 및 오픈 소스 조정 서비스.
Hue
관리 툴 및 웹 인터페이스.
Oozie
오픈소스 job scheduling 툴.
Druid
오픈소스 실시간 빅 데이터 분석 소프트웨어.
Flink
일괄 처리 및 스트림 처리를 위한 분산 엔진.
완벽한 에코시스템 지원
EMR은 Alibaba Cloud 서비스와 긴밀하게 통합되어 있습니다.
OSS 지원
대부분의 EMR 구성 요소에서 Object Storage Service(OSS)를 HDFS로 사용할 수 있습니다.
SLS 지원
Log Service(SLS)에서 실시간 데이터(RTD)를 입력할 수 있는 SDK를 제공합니다.
Elasticsearch 지원
Hadoop은 모든 Elasticsearch 작업을 지원하는 내장 ES-Hadoop 플러그인을 제공합니다.
MaxCompute 지원
EMR은 Alibaba Cloud MaxCompute 데이터 읽기 및 쓰기를 지원합니다.
Alibaba Cloud Message Service 지원
EMR은 Message Queue 및 Message Service와 같은 Alibaba Cloud 메시지 서비스에서 데이터 읽기 및 쓰기를 지원하고 SDK 통합을 지원합니다.