Instancias P4 de Amazon EC2

Alto rendimiento en entrenamiento de ML y aplicaciones de HPC en la nube

¿Por qué elegir las Instancias P4 de Amazon EC2?

Las instancias P4d de Amazon Elastic Compute Cloud (Amazon EC2) ofrecen un alto rendimiento para el entrenamiento del machine learning (ML) y las aplicaciones de computación de alto rendimiento (HPC) en la nube. Las instancias P4d cuentan con la tecnología de las GPU A100 Tensor Core de NVIDIA y brindan un rendimiento líder del sector y redes de baja latencia. Estas instancias admiten redes de instancias de 400 Gbps. Las instancias P4d ofrecen un costo hasta un 60 % más bajo de entrenamiento de modelos de ML, además de un rendimiento 2,5 veces mejor en promedio para los modelos de aprendizaje profundo, en comparación con las instancias P3 y P3dn de las generaciones anteriores.

Las instancias P4d se implementan en clústeres de hiperescala llamados UltraClusters de Amazon EC2, que se componen de informática, redes y almacenamiento de alto rendimiento de la nube. Cada UltraCluster de EC2 es una de las supercomputadoras más poderosas del mundo, que le ayuda a ejecutar su entrenamiento de ML de varios nodos y cargas de trabajo de HPC distribuidas más complejas. Puede escalar fácilmente de unos pocos a miles de GPU NVIDIA A100 en los UltraClusters EC2, según las necesidades de su proyecto de ML o HPC.

Tanto investigadores, como científicos de datos y desarrolladores pueden usar las instancias P4d para entrenar modelos de ML para casos de uso, como el procesamiento de lenguaje natural, la detección y clasificación de objetos, y los motores de recomendación. También pueden usarlas para ejecutar aplicaciones de HPC, como el descubrimiento farmacéutico, el análisis sísmico y la modelización financiera. A diferencia de los sistemas locales, puede acceder a una capacidad informática y de almacenamiento prácticamente ilimitada, escalar su infraestructura según las necesidades de su negocio y poner en marcha un entrenamiento de ML de varios nodos o una aplicación de HPC distribuida estrechamente asociada en minutos, sin costos de instalación ni de mantenimiento.

Presentación de las nuevas instancias P4d de Amazon EC2

Beneficios

Con las GPU NVIDIA A100 Tensor Core de última generación, cada instancia P4d ofrece, en promedio, un rendimiento de aprendizaje profundo 2,5 veces mejor, en comparación con las instancias P3 de generaciones anteriores. Los UltraClusters de EC2 de instancias P4d ayudan a los desarrolladores, científicos de datos e investigadores a ejecutar sus cargas de trabajo de ML y HPC más complejas, y les permite acceder a un rendimiento de nivel de supercomputadora sin costos anticipados ni compromisos a largo plazo. El tiempo reducido de entrenamiento con las instancias P4d mejora la productividad, lo que ayuda a los desarrolladores a centrarse en su misión principal de incorporar inteligencia de ML en aplicaciones empresariales.

Los desarrolladores pueden escalar fácilmente hasta miles de GPU con UltraClusters de EC2 de instancias P4d. Alto rendimiento, conexión de red de baja latencia con compatibilidad con conexión de red de instancias de 400 Gbps, Elastic Fabric Adapter (EFA) y tecnología GPUDirect RDMA ayudan a entrenar rápidamente los modelos de ML mediante técnicas escalables/distribuidas. EFA utiliza NVIDIA Collective Communications Library (NCCL) para escalar a miles de GPU, y la tecnología GPUDirect RDMA habilita GPU de baja latencia para la comunicación de GPU entre instancias P4d.

Las instancias P4d ofrecen un costo hasta un 60 % menor para entrenar modelos de ML, en comparación con las instancias P3. Además, las instancias P4d están disponibles para comprar como instancias de spot. Las instancias de spot aprovechan la capacidad no utilizada de instancias de EC2 y pueden reducir significativamente los costos de EC2 con un descuento de hasta el 90 % sobre los precios bajo demanda. Con el costo más bajo de entrenamiento de ML con instancias P4d, usted puede reasignar los presupuestos para incorporar más inteligencia en aplicaciones empresariales.

Las AMI de aprendizaje profundo de AWS (DLAMI) y los contenedores de aprendizaje profundo de Amazon facilitan la implementación de entornos de aprendizaje profundo de P4d en cuestión de minutos, ya que contienen las herramientas y bibliotecas de marcos de aprendizaje profundo necesarias. También puede agregar más fácilmente sus propias bibliotecas y herramientas a esas imágenes. Las instancias P4d son compatibles con marcos populares de ML, como TensorFlow, PyTorch y MXNet. Además, las instancias P4d son compatibles con importantes servicios de AWS para ML, administración y orquestación, como Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS Batch y AWS ParallelCluster.

Características

Las GPU NVIDIA A100 Tensor Core ofrecen una aceleración sin precedentes a escala para ML y HPC. Los Tensor Cores de tercera generación de NVIDIA A100 aceleran todas las cargas de trabajo de precisión, con lo que se agiliza el tiempo de obtención de información y el tiempo de comercialización. Cada GPU A100 ofrece más de 2,5 veces el rendimiento de computación en comparación con la GPU V100 de la generación anterior y viene con 40 GB HBM2 (en instancias P4d) u 80 GB HBM2e (en instancias P4de) de memoria de alto rendimiento para la GPU. Una mayor memoria de la GPU beneficia especialmente a las cargas de trabajo que se entrenan con grandes conjuntos de datos de alta resolución. Las GPU NVIDIA A100 usan el rendimiento de la interconexión de las GPU NVSwitch de modo que cada GPU se pueda comunicar con cualquier otra en la misma instancia, con el mismo rendimiento bidireccional de 600 GB/s y con latencia de un solo salto.

Las instancias P4d ofrecen redes de 400 Gbps para ayudar a los clientes a escalar horizontalmente mejor sus cargas de trabajo distribuidas, como por ejemplo hacer un entrenamiento de varios nodos de manera más eficiente con redes de alto rendimiento entre instancias P4d, además de entre instancias P4d y servicios de almacenamiento, como Amazon Simple Storage Service (Amazon S3) y FSx para Lustre. EFA es una interfaz de red personalizada y diseñada por AWS para ayudar a escalar las aplicaciones de ML y HPC a miles de GPU. Para reducir aún más la latencia, EFA se combina con NVIDIA GPUDirect RDMA para permitir comunicación de GPU a GPU de baja latencia entre servidores con omisión de sistema operativo.

Acceda a un almacenamiento a escala de petabytes, de alto rendimiento y baja latencia, con FSx para Lustre o a almacenamiento virtualmente ilimitado y rentable con Amazon S3 a velocidades de 400 Gbps. Para cargas de trabajo que necesitan acceso rápido a conjuntos de datos grandes, cada instancia P4d también incluye almacenamiento DDS basado en NVMe de 8 TB con rendimiento de lectura de 16 GB por segundo.

Las instancias P4d se incorporan a AWS Nitro System, que es una amplia colección de bloques funcionales que descargan muchas de las funciones de virtualización tradicionales a hardware y software dedicados para ofrecer alto rendimiento, alta disponibilidad y alta seguridad, al tiempo que reduce la sobrecarga de la virtualización.

Testimonios de clientes

Estos son algunos ejemplos de cómo los clientes y socios lograron sus objetivos empresariales con las instancias P4 de Amazon EC2.

  • Toyota Research Institute (TRI)

    Toyota Research Institute (TRI), fundado en 2015, trabaja para desarrollar la conducción automatizada, robótica y otras tecnologías de amplificación humana para Toyota.

    En el TRI, trabajamos para construir un futuro en el que todos tengan la libertad de desplazarse. Las instancias P3 de la generación anterior nos ayudaron a reducir nuestro tiempo de entrenamiento de modelos de ML de días a horas, y estamos ansiosos por utilizar las instancias P4d, ya que la memoria GPU adicional y los formatos flotantes más eficientes le permitirán a nuestro equipo de machine learning entrenar con modelos más complejos a una velocidad aún mayor.

    Mike Garrison, Technical Lead, Infrastructure Engineering, TRI
  • TRI-AD

    En TRI-AD, estamos trabajando para crear un futuro en el que todos tengan la libertad de moverse y explorar con un enfoque en la reducción de lesiones y muertes en vehículos gracias a la conducción adaptada y la ciudad inteligente. Mediante el uso de instancias P4d de Amazon EC2, podemos reducir nuestro tiempo de entrenamiento para el reconocimiento de objetos en un 40 % en comparación con las instancias GPU de generaciones anteriores, sin modificaciones a los códigos existentes.

    Junya Inada, Director de Automated Driving (Recognition), TRI-AD
  • TRI-AD

    Mediante el uso de instancias P4d de Amazon EC2, podemos reducir de inmediato el costo de entrenamiento en comparación con las instancias GPU de las generaciones anteriores, lo que nos permite aumentar la cantidad de equipos que trabajan en el entrenamiento de modelos. Las mejoras de red en P4d nos permitieron escalar eficientemente a docenas de instancias, lo que nos dio una agilidad importante para optimizar, volver a entrenar e implementar rápidamente docenas de modelos en autos de prueba o entornos de simulación para hacer más pruebas.

    Jack Yan, Senior Director de Infrastructure Engineering, TRI-AD
  • GE Healthcare

    GE Healthcare es un innovador líder a nivel mundial de tecnología médica y soluciones digitales. GE Healthcare les permite a los médicos tomar decisiones más rápidas e informadas gracias a dispositivos inteligentes, análisis de datos, aplicaciones y servicios, compatibles con Edison, su plataforma de inteligencia.

    En GE Healthcare, proporcionamos a los médicos herramientas que los ayudan a agregar datos, aplicar IA y análisis a esos datos y acceder a información que mejore los resultados de los pacientes, generar eficiencia y eliminar los errores. “Nuestros servicios de imágenes médicas generan enormes cantidades de datos que deben procesar nuestros científicos de datos. Con clústeres GPU anteriores, nos tomaba días entrenar modelos de IA completos, como GAN progresivas, para hacer simulaciones y ver resultados. Al utilizar las nuevas instancias P4d, redujimos el tiempo de procesamiento de días a horas. Notamos una velocidad dos o tres veces mayor en los modelos de entrenamiento con varios tamaños de imágenes, mientras que logramos un mejor rendimiento con tamaños mayores de lotes y más productividad con un ciclo de desarrollo de modelo más veloz.

    Karley Yoder, VP & GM, Artificial Intelligence, GM Healthcare
  • HEAVY.AI

    HEAVY.AI es pionera en los análisis acelerados. La plataforma HEAVY.AI se usa en los negocios y el Gobierno para encontrar información en los datos más allá de los límites de las herramientas analíticas generales.

    En HEAVY.AI trabajamos para crear un futuro en el que la ciencia de datos y el análisis se unan para desglosar y fusionar silos de datos. Los clientes están aprovechando las enormes cantidades de datos, que pueden ser datos de localización y horarios, para generar un panorama completo, no solo de lo que está sucediendo, sino de cuándo y dónde, a través de la visualización pormenorizada de los datos espacio-temporal. Nuestra tecnología permite ver tanto el bosque como los árboles. “Al usar instancias P4d de Amazon EC2, pudimos reducir significativamente el costo de implementación de nuestra plataforma en comparación con las instancias GPU de generaciones anteriores, lo cual nos permite escalar conjuntos masivos de datos de manera rentable. Las mejoras de red en A100 aumentaron nuestra eficiencia en la forma en la que escalamos a miles de millones de filas de datos y les permitió a nuestros clientes obtener información aún más rápido.

    Ray Falcione, VP de US Public Sector, HEAVY.AI
  • Zenotech Ltd.

    Zenotech Ltd. redefine la ingeniería online mediante el uso de nubes de HPC que ofrecen modelos de licencia bajo demanda además de beneficios extremos de rendimiento al aprovechar las GPU.

    En Zenotech estamos desarrollando herramientas que les permitan a los diseñadores crear productos más eficientes y sostenibles con el medioambiente. Trabajamos con varios sectores. Nuestras herramientas proporcionan mayor información sobre rendimiento de los productos mediante el uso de la simulación a gran escala. El uso de instancias P4d de AWS nos permite llevar a cabo nuestras simulaciones 3,5 veces más rápido en comparación con la generación anterior de GPU. Este aumento de la velocidad disminuye el tiempo de resolución de forma significativa y les permite a nuestros clientes llevar sus diseños al mercado más rápido o hacer simulaciones de mayor fidelidad que lo que hubiera sido posible antes.

    Jamil Appa, director y cofundador de Zenotech
  • Aon

    Aon es una empresa de servicios profesionales líder en el mundo que ofrece una gran variedad de soluciones de riesgos, jubilación y salud. Aon PathWise es una solución de administración de riesgos de HPC basada en GPU y escalable que pueden utilizar las aseguradoras, las reaseguradoras, los bancos y los fondos de retiro para abordar los desafíos principales de la actualidad, como la prueba de estrategias de cobertura, el pronóstico regulatorio y económico, y la generación de presupuestos. 

    En PathWise Solutions Group LLC, nuestro producto les permite a las empresas aseguradoras, las reaseguradoras y los fondos de retiro acceder a tecnología de última generación para resolver rápidamente los principales desafíos de la actualidad en el sector de los seguros, como el machine learning, las pruebas de estrategias de cobertura, los informes regulatorios y económicos, los pronósticos de planificación comercial y económica, y el desarrollo y la asignación de precios de nuevos productos. “A través del uso de las instancias P4d de Amazon EC2, podemos ofrecer increíbles mejoras en velocidad para los cálculos de precisión individual y doble, en comparación con instancias GPU de generaciones anteriores para los cálculos más exigentes, lo que permite que los clientes hagan nuevos cálculos y pronósticos por primera vez. La velocidad es importante, y seguimos ofreciéndoles un valor significativo y la tecnología más reciente a nuestros clientes gracias a las nuevas instancias de AWS.

    Van Beach, director global de Life Solutions, Aon Pathwise Strategy and Technology Group
  • Rad AI

    Compuesta por expertos en IA y radiología, Rad AI desarrolla productos que maximizan la productividad de los radiólogos, lo que, en última instancia, hace que la sanidad sea mucho más accesible y que mejoren los resultados de los pacientes. Lea el caso práctico para obtener más información

    En Rad AI, nuestra misión es aumentar el acceso a la sanidad y la calidad para todos. Con un enfoque en el flujo de trabajo de las imágenes médicas, Rad AI les ahorra tiempo a los radiólogos, reduce el agotamiento y mejora la precisión. “Utilizamos IA para automatizar los flujos de trabajo de la radiología y ayudar a optimizar la generación de informes radiológicos. Con las nuevas instancias P4d de EC2, hemos notado una inferencia más veloz y la capacidad de entrenar modelos 2,4 veces más rápido, con una mayor precisión que en las instancias P3 de generaciones anteriores. Esto permite hacer diagnósticos más rápidos y precisos, y ayuda a nuestros clientes de EE. UU. a ofrecer un mayor acceso a servicios radiológicos de alta calidad.

    Doktor Gurson, cofundador de Rad AI

Detalles del producto

Tamaño de la instancia vCPU Memoria de la instancia (GiB) GPU: A100 Memoria de GPU Ancho de banda de la red (Gbps) GPUDirect RDMA GPU de pares Almacenamiento de instancias (GB) Ancho de banda de EBS (Gbps) Precio de la instancia bajo demanda por hora Por hora real en una instancia reservada por 1 año* Por hora real en una instancia reservada por 3 años*
p4d.24xlarge 96 1152 8 320 GB
HBM2
400 ENA y EFA 600 GB/s NVSwitch 8 x 1000 SSD NVMe 19 32,77 USD 19,22 USD 11,57 USD
p4de.24xlarge (versión preliminar) 96 1152 8 640 GB
HBM2e
400 ENA y EFA 600 GB/s NVSwitch 8 x 1000 SSD NVMe 19 40,96 USD 24,01 USD 14,46 USD
* Los precios indicados corresponden a Linux/Unix en la región de AWS del Este de EE. UU. (Norte de Virginia) y se redondean al céntimo más cercano. Para ver los detalles completos de los precios, consulte Precios de Amazon EC2.

Las instancias P4d están disponibles en las regiones de Este de EE. UU. (Norte de Virginia y Ohio), Oeste de EE. UU. (Oregón), Asia-Pacífico (Seúl y Tokio) y Europa (Fráncfort e Irlanda). Las instancias P4de están disponibles en las regiones de AWS Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón).

Los clientes pueden adquirir instancias P4d y P4de como instancias bajo demanda, instancias reservadas, instancias de spot, hosts dedicados o como parte de Savings Plans.

Introducción a las instancias P4d para ML

Amazon SageMaker es un servicio completamente administrado que sirve para crear, entrenar e implementar modelos de ML. Cuando se usa con las instancias P4d, los clientes pueden escalar rápidamente decenas, cientos o miles de GPU para entrenar rápidamente un modelo a cualquier escala sin preocuparse por configurar clústeres ni canalizaciones de datos.

Con las DLAMI, los investigadores y profesionales de ML acceden a la infraestructura y las herramientas necesarias para agilizar las tareas de aprendizaje profundo (DL) en la nube, a cualquier escala. Los contenedores de aprendizaje profundo son imágenes de Docker preinstaladas con marcos de aprendizaje profundo que facilitan la implementación rápida de entornos de ML personalizados porque le permiten omitir el complejo proceso de crear y optimizar sus entornos desde cero.

Si prefiere gestionar sus propias cargas de trabajo en contenedores mediante servicios de orquestación de contenedores, puede implementar instancias P4d con Amazon EKS o Amazon ECS.

Introducción a las instancias P4d para HPC

Las instancias P4d son ideales para ejecutar simulaciones de ingeniería, finanza computacional, análisis sísmico, modelado molecular, genómica, representaciones y otras cargas de trabajo de HPC con GPU. Con frecuencia, las aplicaciones de HPC exigen un alto nivel de rendimiento de red, almacenamiento ágil, gran capacidad de memoria, capacidades informáticas altas o todas estas características juntas. Las instancias P4d son compatibles con EFA, que permite que las aplicaciones de HPC que utilizan Message Passing Interface (MPI) escalen a miles de GPU. AWS Batch y AWS ParallelCluster ayudan a los desarrolladores de HPC a crear y escalar rápidamente aplicaciones de HPC distribuidas.

Más información