Amazon EMR en AWS Outposts

¿Por qué EMR en Outposts?

AWS Outposts brinda servicios, infraestructura y modelos operativos de AWS a prácticamente cualquier centro de datos, espacio de coubicación o instalación local. Amazon EMR está disponible en AWS Outposts, lo que le permite configurar, implementar, administrar y escalar clústeres de Apache Hadoop, Apache Hive, Apache Spark y Presto en sus entornos locales, igual que haría en la nube. Amazon EMR proporciona capacidad rentable en Outposts, y a la vez automatiza las tareas administrativas que llevan demasiado tiempo, como el aprovisionamiento de infraestructura o la disposición, configuración o ajuste de clústeres, permitiéndole enfocarse en sus aplicaciones.

Puede crear con facilidad clústeres EMR administrados en las instalaciones con la misma consola de administración de EMS, API y CLI de EMR. Los clústeres EMR lanzados en Outpost aparecerán en la consola de AWS igual que cualquier otro clúster, pero se ejecutarán en Outpost.

Beneficios

Una vez que haya configurado Outpost, puede lanzar un nuevo clúster EMR en las instalaciones y conectarlo al almacenamiento HDFS existente en cuestión de minutos. Esto le permite responder con rapidez cuando los sistemas locales necesitan capacidad de procesamiento adicional. Cuando se agrega capacidad a los clústeres locales de Hadoop y Spark se ayudan a cumplir las demandas de carga de trabajo en periodos de alto uso y a mantener los SLA.
Si está inmerso en el proceso de migrar datos y cargas de trabajo de Apache Hadoop a la nube y desea empezar a utilizar EMR antes de que se complete la migración, puede utilizar AWS Outposts para lanzar clústeres EMR locales que se conecten con su almacenamiento HDFS existente. A continuación, puede migrar de forma gradual sus datos a Amazon S3 como parte de una evolución hacia una infraestructura en la nube.
Apache Hadoop, Apache Hive, Apache Spark y Presto se utilizan habitualmente para procesar, transformar y analizar datos que son parte de una arquitectura de datos mayor. Para aquellos datos que deban permanecer en las instalaciones por cuestiones de gobernanza, conformidad u otros motivos, puede utilizar EMR para implementar y ejecutar aplicaciones como Apache Hadoop y Apache Spark en las instalaciones, cerca de sus datos. De esta forma, se reduce la necesidad de mover grandes cantidades de datos locales a la nube, lo que disminuye la cantidad general de tiempo necesaria para procesar esos datos.