Instances Amazon EC2 P3

Accélérer l'apprentissage automatique et les applications de calcul haute performance avec des GPU puissants.

Pourquoi choisir les instances Amazon EC2 P3 ?

Les instances P3 Amazon EC2 offrent des fonctionnalités de calcul haute performance dans le cloud avec jusqu'à 8 GPU NVIDIA® V100 à cœurs Tensor et un débit réseau pouvant atteindre 100 Gb/s pour les applications d'apprentissage automatique et HPC (calcul haute performance). Ces instances offrent jusqu'à 1 pétaflop de performances de précision mixte par instance pour accélérer significativement les applications d'apprentissage automatique et de calcul haute performance. Il a été démontré que les instances P3 Amazon EC2 réduisent de jours en minutes les temps de formation pour l'apprentissage automatique, et multiplient par 3 ou 4 le nombre de simulations effectuées pour le calcul haute performance.

Avec jusqu'à 4 fois plus de bande passante réseau que les instances P3.16xlarge, les instances P3dn.24xlarge Amazon EC2 sont les tout derniers membres de la famille P3, et sont optimisées pour les applications de machine learning distribué et HPC. Ces instances offrent un débit réseau pouvant atteindre 100 Gbit/s, 96 vCPU personnalisés Intel® Xeon® Scalable (Skylake), 8 GPU NVIDIA® V100 Tensor Core dotés chacun de 32 Gio de mémoire et 1,8 To de stockage local SSD basé sur NVMe. Les instances P3dn.24xlarge sont également compatibles avec Elastic Fabric Adapter (EFA) qui accélère les applications de machine learning distribuées utilisant NVIDIA Collective Communications Library (NCCL). EFA permet la mise à l'échelle de milliers de GPU, améliorant ainsi de manière significative le débit et l'évolutivité lors des phases d'apprentissage automatique, pour des résultats plus rapides.

Présentation des instances Amazon EC2 P3

Avantages

Pour les spécialistes des données, les chercheurs et les développeurs qui doivent accélérer les applications ML, les instances P3 Amazon EC2 sont les plus rapides dans le cloud pour la formation ML. Les instances Amazon EC2 P3 comportent jusqu'à huit GPU NVIDIA Tensor Core V100 de dernière génération et délivrent jusqu'à un pétaflop de performances de précision mixte pour accélérer significativement les charges de travail ML. Une formation plus rapide sur les modèles peut permettre aux scientifiques des données et aux ingénieurs d'apprentissage automatique d'itérer plus rapidement, de former un plus grand nombre de modèles et d'accroître la précision.

Avec l'une des instances GPU les plus puissantes dans le cloud combinée à des programmes de tarification flexibles, vous bénéficiez d'une solution exceptionnellement rentable pour la formation du machine learning. Comme pour les instances Amazon EC2 en général, les instances P3 sont disponibles en tant qu'instances à la demande, instances réservées ou instances Spot. Les instances Spot tirent parti de la capacité d'instance EC2 inutilisée et peuvent réduire significativement vos coûts Amazon EC2 avec une réduction allant jusqu'à 70 % par rapport aux prix à la demande.

Contrairement aux systèmes sur site, l'exécution du calcul haute performance sur des instances P3 Amazon EC2 offre une capacité pratiquement illimitée pour faire monter en charge votre infrastructure et vous apporte la flexibilité de changer les ressources facilement et aussi souvent que votre charge de travail l'exige. Vous pouvez configurer vos ressources pour répondre aux besoins de votre application et lancer un cluster HPC en quelques minutes, en ne payant que ce que vous utilisez.

Utilisez des images Docker préempaquetées pour déployer des environnements de Deep Learning en quelques minutes seulement. Les images contiennent les bibliothèques de frameworks de Deep Learning (actuellement TensorFlow et Apache MXNet) et les outils requis. Ces images sont entièrement testées. Vous pouvez facilement ajouter vos propres bibliothèques et outils à ces images afin d'obtenir un niveau de contrôle plus élevé sur le traitement des données, la surveillance et la conformité. De plus, les instances Amazon EC2 P3 fonctionnent de manière transparente avec Amazon SageMaker pour fournir une plateforme de Machine Learning complète, puissante et intuitive. Amazon SageMaker est une plateforme de Machine Learning entièrement gérée qui vous permet de construire, former et déployer rapidement et facilement des modèles de Machine Learning. De plus, les instances P3 Amazon EC2 peuvent être intégrées à des Amazon Machine Images (AMI) de deep learning AWS qui sont pré-installées avec des infrastructures de deep learning fréquemment utilisées. Vous pouvez ainsi démarrer plus rapidement et plus facilement avec la formation du machine learning et l'inférence.

Témoignages de clients

Voici quelques exemples de la manière dont les clients et partenaires ont atteint leurs objectifs métier grâce aux instances Amazon EC2 P3.

  • Airbnb

    AirBnB utilise le machine learning pour optimiser les recommandations de recherche et améliorer les directives de tarification dynamique pour les hôtes, ce qui se traduit par une augmentation des conversions de réservation. Grâce aux instances P3 Amazon EC2, Airbnb peut exécuter des charges de travail de formation plus rapidement, effectuer davantage d'itérations, créer de meilleurs modèles de machine learning et réduire les coûts.

  • Celgene

    Celgene est une entreprise mondiale de biotechnologie qui développe des thérapies ciblées qui correspondent au traitement du patient. La société exécute ses charges de travail HPC pour le séquençage génomique de nouvelle génération et les simulations chimiques sur les instances P3 Amazon EC2. Grâce à cette puissance de calcul, Celgene peut former des modèles de deep learning pour distinguer les cellules malignes des cellules bénignes. Avant d'utiliser des instances P3, deux mois était nécessaires pour exécuter des tâches de calcul à grande échelle. Maintenant cela ne prend que quatre heures. La technologie AWS a permis à Celgene d'accélérer le développement de thérapies médicamenteuses contre le cancer et les maladies inflammatoires.

  • Hyperconnect

     

    Hyperconnect est spécialisée dans l'application de nouvelles technologies basées sur le machine learning au traitement d'images et de vidéos, et a été la première société à développer l'interface webRTC pour les plateformes mobiles.

    Lire toute l’étude de cas

    Hyperconnect utilise la classification d’images basée sur l’IA sur son application de communication vidéo afin de reconnaître l’environnement actuel dans lequel un utilisateur se trouve. Nous avons réduit le temps d'entraînement de notre modèle de ML, qui était de plus d'une semaine, à un jour en faisant migrer les stations de travail sur site vers plusieurs instances Amazon EC2 P3 à l'aide de Horovod. En utilisant PyTorch comme cadre de machine learning, nous avons rapidement développé des modèles et exploité les bibliothèques disponibles dans la communauté open source.

    Sungjoo Ha, Directeur du Lab d'IA, Hyperconnect
  • NerdWallet

    NerdWallet est une startup de finances personnelles qui fournit des outils et des conseils pour permettre à ses clients de facilement rembourser des dettes, de choisir les meilleurs produits et services financiers et de relever certains des défis majeurs de la vie, comme l'achat d'une maison ou les plans d'épargne retraite. La société se repose énormément sur la science des données et le machine learning (ML) pour connecter les clients avec des produits financiers personnalisés.

    Lire toute l'étude de cas

    L'utilisation des instances Amazon SageMaker et Amazon EC2 P3 avec les GPU NVIDIA V100 Tensor Core a également amélioré la flexibilité et les performances de NerdWallet et accélérer l’entraînement des modèles ML par les scientifiques des données. Auparavant, il nous fallait des mois pour lancer et itérer des modèles : aujourd’hui, cela ne prend que quelques jours.

    Ryan Kirkman, directeur adjoint de l'ingénierie - NerdWallet
  • PathWise Solutions Group

    Leader dans les solutions de systèmes de qualité, PathWise d’Aon est une suite d'applications SaaS cloud conçue pour la modélisation de gestion des risques en entreprise qui offre rapidité, fiabilité, sécurité et un service à la demande à un éventail de clients.

    Lire l'étude de cas

    Aon’s PathWise Solutions Group fournit une solution de gestion du risque qui permet à nos clients de tirer parti des dernières technologies afin de rapidement résoudre les défis clés actuels des assurances, tels que la gestion et le test de stratégies de couverture, les prévisions économiques et réglementaires, ou encore les budgets. PathWise fonctionne sur AWS en production depuis 2011 et utilise maintenant des instances Amazon EC2 P-Series pour accélérer les calculs nécessaires pour résoudre ces défis pour nos clients dans le monde entier présents sur un marché qui avance et évolue.

    Van Beach, Global Head of Life Solutions, Aon Pathwise Strategy and Technology Group
  • Pinterest

    Pinterest utilise une formation de précision mixte dans les instances P3 sur AWS pour accélérer la formation des modèles de deep learning, et utilise également ces instances pour accélérer l'inférence de ces modèles, pour permettre une expérience de découverte rapide et unique pour les utilisateurs. Pinterest utilise PinSage, créé en utilisant PyTorch sur AWS. Ce modèle d'IA regroupe des images en fonction de certains thèmes. Avec 3 milliards d'images sur la plate-forme, 18 milliards d'associations différentes relient les images. Ces associations aident Pinterest à contextualiser des thèmes et des styles et à produire des expériences utilisateur plus personnalisées.

  • Salesforce

     

    Salesforce utilise le machine learning pour optimiser Einstein Vision, ce qui permet aux développeurs d'exploiter la puissance de la reconnaissance d'images pour des cas d'utilisation tels que la recherche visuelle, la détection de marque et l'identification de produit. Les instances Amazon EC2 P3 permettent aux développeurs de former des modèles d'apprentissage profond beaucoup plus rapidement afin qu'ils puissent atteindre rapidement leurs objectifs d'apprentissage automatique.

  • Schrodinger

    Schrodinger utilise le calcul haute performance (HPC) pour développer des modèles prédictifs afin d'étendre l'échelle de découverte et d'optimisation et de donner à ses clients la possibilité de commercialiser plus rapidement les médicaments qui sauvent des vies. Les instances P3 Amazon EC2 permettent à Schrodinger d'effectuer quatre fois plus de simulations par jour qu'avec les instances P2.  

  • Subtle Medical

    Subtle Medical est une société de technologies de soins de la santé qui améliore l'efficacité de l'imagerie médicale et l'expérience client, grâce à des solutions de deep learning innovantes. Son équipe est composée de scientifiques connus en imagerie, de radiologues et d'experts en IA provenant de Stanford, MIT, MD Anderson, etc.

    Lire toute l’étude de cas

    Les hôpitaux et les centres d’imagerie veulent adopter cette solution sans surcharger leurs départements IT afin d’acquérir une expérience en GPU, et créer et maintenir des centres de données ou des mini-clouds onéreux. Ils souhaitent réussir leurs déploiements de la manière la plus simple et avec le moins d’investissement possible... AWS permet d’y parvenir.

    Enhao Gong, Fondateur et PDG, Subtle Medical
  • Western Digital

    Western Digital utilise le calcul haute performance (HPC) pour exécuter des dizaines de milliers de simulations pour les sciences des matériaux, les flux de chaleur, le magnétisme et le transfert de données afin d'améliorer les performances et la qualité des solutions de stockage et des disques durs. D'après les premiers tests, les instances P3 permettent aux équipes d'ingénierie d'exécuter des simulations au moins trois fois plus rapidement que les solutions précédemment déployées.  

Instances Amazon EC2 P3 et Amazon SageMaker

Amazon SageMaker permet de développer facilement des modèles d'apprentissage automatique et de les préparer pour la formation. Ce service fournit tout ce dont vous avez besoin pour vous connecter rapidement à vos données de formation, et pour sélectionner et optimiser les meilleurs algorithme et infrastructure pour votre application. Amazon SageMaker inclut des notebooks Jupyter hébergés qui simplifient l'exploration et la visualisation de vos données de formation stockées dans Amazon S3.  Vous pouvez également utiliser l'instance de notebook pour écrire du code pour créer des tâches de formation de modèles, déployer des modèles sur l'hébergement Amazon SageMaker et tester ou valider vos modèles.

Vous pouvez commencer la formation de votre modèle d'un simple clic dans la console ou avec un appel d'API. Amazon SageMaker intègre les dernières versions de TensorFlow et d'Apache MXNet, et la prise en charge de bibliothèques CUDA9 pour des performances optimales avec les GPU NVIDIA. De plus, l'optimisation des hyper-paramètres peut automatiquement adapter votre modèle en ajustant intelligemment différentes combinaisons de paramètres du modèle pour arriver rapidement aux prédictions les plus précises. Pour les besoins à plus grande échelle, vous pouvez mettre à l'échelle des dizaines d'instances pour accélérer la construction de modèles.

Après la formation, vous pouvez déployer votre modèle en un seul clic sur des instances Amazon EC2 à scalabilité automatique dans plusieurs zones de disponibilité. En production, Amazon SageMaker gère l'infrastructure de calcul automatiquement pour effectuer des vérifications d'état, appliquer des correctifs de sécurité et réaliser d'autres opérations de maintenance de routine, le tout avec la surveillance et la journalisation d'Amazon CloudWatch intégrées.

Instances Amazon EC2 P3 et AMI AWS de deep learning

Environnements de développement préconfigurés pour commencer rapidement à développer des applications d'apprentissage en profondeur

Une alternative à Amazon SageMaker pour les développeurs qui ont des exigences plus personnalisées, les AMI AWS de deep learning fournissent aux praticiens et aux chercheurs en machine learning l’infrastructure et les outils nécessaires pour accélérer le deep learning dans le cloud, à n’importe quelle échelle. Vous pouvez rapidement lancer des instances Amazon EC2 P3 préinstallées avec des cadres de deep learning fréquemment utilisées, telles que TensorFlow, PyTorch, Apache MXNet, Microsoft Cognitive Toolkit, Caffe, Caffe2, Theano, Torch, Chainer, Gluon et Keras, pour former des modèles d'IA personnalisés complexes, expérimenter de nouveaux algorithmes ou apprendre de nouvelles compétences et techniques. En savoir plus

Instances Amazon EC2 P3 et calcul haute performance

Résoudre de nombreux problèmes informatiques et obtenir de nouvelles informations grâce à toute la puissance du HPC sur AWS

Les instances Amazon EC2 P3 sont une plate-forme idéale pour exécuter des simulations d'ingénierie, des calculs financiers, des analyses sismiques, des modélisations moléculaires, de la génomique, du rendu et d'autres charges de travail de calcul GPU. Le calcul haute performance (HPC) permet aux scientifiques et aux ingénieurs de résoudre ces problèmes informatiques complexes nécessitant une importante capacité de calcul. Les applications HPC exigent souvent des performances réseau élevées, un stockage rapide, d'importantes capacités de mémoire, des capacités de calcul élevées ou tous ces éléments. AWS vous permet d'accélérer les recherches et l'obtention de résultats en exécutant le HPC dans le cloud et en assurant une mise à l'échelle vers un nombre de tâches en parallèle plus élevé que ce que permettent la plupart des environnements sur site. Par exemple, les instances P3dn.24xlarge sont compatibles avec Elastic Fabric Adapter (EFA) qui permet aux applications de calcul haute performance HPC utilisant l'interface MPI (Message Passing Interface) de mettre à l'échelle des milliers de GPU. AWS permet de réduire les coûts en fournissant des solutions optimisées pour des applications spécifiques, sans investissement initial important. En savoir plus

Prise en charge du poste de travail virtuel NVIDIA RTX

Les AMI du poste de travail virtuel NVIDIA RTX offrent des performances graphiques élevées grâce aux puissantes instances P3 équipées de GPU NVIDIA Volta V100 et exécutées dans le cloud AWS. Ces AMI disposent du tout dernier logiciel graphique NVIDIA GPU préinstallé, ainsi que des derniers pilotes RTX et des certifications NVIDIA ISV avec prise en charge d'un maximum de quatre résolutions de bureau 4K. Les instances P3 équipées de GPU NVIDIA V100 combinées aux vWS RTX offrent des postes de travail hautes performances dans le cloud avec un maximum de 32 Gio de mémoire GPU, un ray tracing rapide et un rendu optimisé par l'IA.

Les nouvelles AMI sont disponibles sur AWS Marketplace avec prise en charge de Windows Server 2016 et de Windows Server 2019.

Instances P3dn.24xlarge Amazon EC2

Les instances P3dn.24xlarge Amazon EC2 sont les instances P3 les plus rapides, les plus puissantes et les plus grandes. Elles offrent un débit de réseau pouvant atteindre 100 Gbit/s, 8 GPU NVIDIA® V100 Tensor Core dotés chacun de 32 Gio de mémoire, 96 vCPU personnalisées Intel® Xeon® Scalable (Skylake) et 1,8 To de stockage local SSD NVMe. La mise en réseau plus rapide, les nouveaux processeurs, le doublement de la mémoire GPU et les processeurs virtuels supplémentaires permettent aux développeurs de réduire considérablement le temps nécessaire à la formation de leurs modèles de machine learning ou à l'exécution de simulations HPC supplémentaires en dimensionnant leurs tâches sur plusieurs instances (16, 32 ou 64 instances, par exemple). Les modèles de machine learning nécessitent une grande quantité de données pour la formation. En plus d'augmenter le débit de transfert de données entre les instances, le débit réseau supplémentaire des instances P3dn.24xlarge peut être également utilisé pour accélérer l'accès à des volumes importants de données de formation en se connectant à des solutions Amazon S3 ou des systèmes de fichiers partagés comme Amazon EFS.

Avec un débit réseau de 100 Gbit/s, les développeurs peuvent utiliser efficacement un grand nombre d'instances P3dn.24xlarge pour la formation distribuée et réduire de façon significative le temps de formation de leurs modèles. Les 96 vCPU des processeurs Intel Skylake personnalisés par AWS avec des instructions AVX-512 opérant à 2,5 GHz contribuent à optimiser le prétraitement des données. En outre, les instances P3dn.24xlarge utilisent AWS Nitro System, associant un matériel dédié et un hyperviseur léger, qui fournit pratiquement toutes les ressources de calcul et de mémoire du matériel hôte à vos instances. Les instances P3dn.24xlarge sont aussi compatibles avec Elastic Fabric Adapter (EFA) qui permet aux applications de ML utilisant NVIDIA Collective Communications Library (NCCL) de mettre à l’échelle des milliers de GPU.

Une mise en réseau améliorée reposant sur la dernière version de l'adaptateur Elastic Network Adapter avec jusqu'à 100 Gb/s de bande passante de réseau agrégée peut être utilisée non seulement pour partager des données sur plusieurs instances P3dn.24xlarge, mais aussi pour un accès aux données haut débit via une solution Amazon S3 ou de systèmes de fichiers partagés comme Amazon EFS. Un accès aux données haut débit est essentiel pour optimiser l'utilisation des GPU et tirer des performances maximales des instances de calcul.

Les instances P3dn.24xlarge disposent des GPU NVIDIA V100 Tensor Core dotées de 32 Gio de mémoire qui fournissent la flexibilité permettant d'entraîner des modèles de machine learning plus avancés et plus grands, et de traiter des lots de données plus volumineux comme des images 4k pour les systèmes de classification d'images et de détection d'objet.

Instance P3 Amazon EC2 P - Informations du produit

Taille d'instance GPU - Tesla V100 Pair à pair GPU Mémoire de GPU (Go) Processeurs virtuels Mémoire (Go) Bande passante réseau Bande passante EBS Prix/heure pour les instances à la demande* Tarif horaire effectif des instances réservées sur 1 an* Tarif horaire effectif des instances réservées sur 3 ans*
p3.2xlarge 1 N/A 16 8 61 Jusqu'à 10 Go/s 1,5 Gb/s 3,06 USD 1,99 USD 1,05 USD
p3.8xlarge 4
NVLink 64 32 244 10 Go/s 7 Go/s 12,24 USD 7,96 USD 4,19 USD
p3.16xlarge 8 NVLink 128 64 488 25 Gbit/s 14 Go/s 24,48 USD 15,91 USD 8,39 USD
p3dn.24xlarge 8 NVLink 256 96 768 100 Gbits/s 19 Gbits/s 31,218 USD 18,30 USD 9,64 USD

* - Les prix affichés sont pour Linux/Unix dans la région AWS USA Est (Virginie du Nord) et sont arrondis au cent le plus proche. Pour consulter l'ensemble des informations de tarification, accédez à la page relative à la tarification d'Amazon EC2.

Les clients peuvent acheter des instances P3 sous forme d'instances à la demande, d'instances réservées, d'instances Spot ou d'hôtes dédiés.

Facturation à la seconde

L'un des nombreux avantages du cloud computing est la nature élastique de l'allocation ou de la désallocation des ressources au fur et à mesure que vous en avez besoin. En facturant l'utilisation à la seconde près, nous permettons aux clients d'augmenter leur élasticité, d'économiser de l'argent et d'optimiser l'allocation des ressources en vue d'atteindre leurs objectifs de machine learning.

Tarification des instances réservées

Les instances réservées permettent de bénéficier d'une réduction conséquente (jusqu'à 75 %) par rapport à la tarification des instances à la demande. De plus, lorsque des instances réservées sont attribuées à une zone de disponibilité spécifique, elles fournissent une réservation de capacité, ce qui vous conforte dans l'idée que vous pouvez lancer des instances quand vous en avez besoin.

Tarification des instances Spot

Avec les instances Spot, vous payez le prix Spot en vigueur pendant la durée d'exécution de vos instances. Les prix spot sont définis par Amazon EC2 et ajustés graduellement en fonction des tendances à long terme en matière d'offre et de demande de capacité d'instance Spot. Les instances Spot sont disponibles avec une réduction allant jusqu'à 90 % par rapport à la tarification à la demande.

La plus grande disponibilité mondiale

Disponibilité mondiale des instances P3

Les instances P3.2xlarge, P3.8xlarge et P3.16xlarge Amazon EC2 sont disponibles dans 14 régions AWS afin que les clients aient la flexibilité de former et de déployer leurs modèles de machine learning quel que soit l'emplacement de stockage de leurs données. Les régions pour lesquelles les instances P3 sont disponibles sont les suivantes : USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), Canada (Centre), Europe (Irlande), Europe (Francfort), Europe (Londres), Asie-Pacifique (Tokyo), Asie-Pacifique (Séoul), Asie-Pacifique (Sydney), Asie-Pacifique (Singapour), Chine (Beijing), Chine (Ningxia) et les régions AWS GovCloud (USA Ouest).

Les instances P3dn.24xlarge sont disponibles dans les régions AWS Asie-Pacifique (Tokyo), UE (Irlande), USA Est (Virginie du Nord) et USA Ouest (Oregon), AWS GovCloud (USA Ouest) et GovCloud (USA Est).

Démarrer avec les instances P3 Amazon EC2 pour le machine learning

Pour commencer en quelques minutes, apprenez-en plus sur Amazon SageMaker ou utilisez l’AMI AWS Deep Learning, préinstallé avec des cadres de deep learning fréquemment utilisés tels que Caffe2 et MXNet. Vous pouvez également utiliser l’image AMI NVIDIA avec le pilote GPU et la boîte à outils CUDA préinstallés.