Das HGSC des Baylor College of Medicine analysiert Genomdaten schneller mit Illumina DRAGEN in AWS

2022

Das Human Genome Sequencing Center (HGSC) am Baylor College of Medicine (Baylor) ist eines der wenigen Genomsequenzierungslabore, das vom Forschungsprogramm All of Us des National Institutes of Health in den Vereinigten Staaten finanziert wird. Im Jahr 2019 begann das HGSC mit der Suche nach Lösungen für eine hochskalierbare, sichere Analyse seiner großen Genomik-Datensätze. Das HGSC beauftragte den AWS-Advanced-Partner Illumina mit der gründlichen Bewertung der Illumina DRAGEN (Dynamic Read Analysis for GENomics) Bio-IT-Plattform, einer Bioinformatiklösung, die eine hochgenaue, umfassende und effiziente sekundäre genomische Analyse von Sequenzierungsdaten ermöglicht und die Field Programmable Gate Array (FPGA)-Technologie zur Beschleunigung verwendet. 

Durch die Verwendung von DRAGEN zusammen mit AWS-Services kann das HGSC Hunderte von Genomproben pro Tag analysieren. Diese Lösung hat Baylor geholfen, seine Teilnahme an Forschungsinitiativen wie dem Forschungsprogramm All of Us des National Institutes of Health zu erhöhen, einem landesweiten Projekt zur Beschleunigung der Fortschritte in der Präzisionsmedizin, indem die Gesundheits- und genetischen Daten von einer Million Freiwilligen gesammelt und analysiert werden.

Wissenschaftler arbeitet am Computer
kr_quotemark

Wenn große Datenmengen von den Sequenzierungsinstrumenten ausgehen, verwenden wir FPGAs in AWS, um diese Daten schnell zu verarbeiten.“ 

Erik Venner
Außerordentlicher Professor und Leiter der Gruppe für klinische Informatik, Human Genome Sequencing Center, Baylor College of Medicine

Suchen nach Lösungen zur Beschleunigung der Forschung

Baylor ist eine Universität für Gesundheitswissenschaften in Houston, Texas. In den Vereinigten Staaten steht sie bei der Finanzierung durch die National Institutes of Health an zwanzigster Stelle und in der Genetik an erster Stelle. 2016 gründete Baylor das HGSC Clinical Laboratory, um groß angelegte Sequenzierungsbemühungen zur Aufbereitung von Genomikdaten für den klinischen Einsatz zu unterstützen. Das HGSC spielte eine entscheidende Rolle beim Humangenomprojekt und beim Forschungsprogramm All of Us, für das Baylor, die Johns Hopkins University und das Health Science Center der University of Texas in Houston zusammen mit anderen Gruppen in den Vereinigten Staaten als Genomzentren arbeiten. 

Damit Baylor an dem Programm teilnehmen konnte, musste das HGSC skalieren, um großen Sequenzierungs-Workloads gerecht zu werden und das Rechen- und Speichermanagement zu vereinfachen. Es musste auch strenge Compliance-Standards erfüllen, darunter ISO/IEC 27001, die über 100 Sicherheitsanforderungen und Bundesvorschriften zur Kontrolle des Zugriffs auf Daten und vertrauliche Informationen umfasst. Genetische Daten gelten als kontrollierte, nicht klassifizierte Informationen, die zusätzlichen Schutzkontrollen unterliegen. „Wir mussten Standards einhalten, die ein paar Stufen höher sind als die, die wir für HIPAA tun mussten“, sagt Richard Gibbs, Direktor des HGSC. 

Baylor hatte zuvor mit Illumina zusammengearbeitet, das Sequenzierungs- und Softwaretechnologie anbietet, und nutzte AWS seit 2012 für Genomik-Computing. Alle Forschungszentren, die am Forschungsprogramm All of Us teilnehmen, haben DRAGEN für die Sekundäranalyse standardisiert. Das HGSC erkannte jedoch, dass die Migration von On-Premises zu DRAGEN in der Cloud das unmittelbarste und langfristigste Potenzial birgt, auch im Bereich der Gewinnung und Beibehaltung von Teammitgliedern. „Die Arbeit in der Cloud ist von Vorteil, weil die Menschen Technologien erlernen wollen, die in den nächsten Jahrzehnten beliebt sein werden“, sagt Eric Venner, außerordentlicher Professor und Leiter der klinischen Informatikgruppe an der HGSC. „Jetzt können wir einige sehr talentierte Nachwuchsingenieure gewinnen.“

Verwenden von DRAGEN in AWS, um Genauigkeit, Skalierbarkeit und Sicherheit zu finden

Im Frühjahr 2019 begann das Baylor-Team, mit Illumina an der Variant-Calling-Technologie zusammenzuarbeiten, mit der Varianten in Sequenzierungsdaten identifiziert werden. Im Herbst 2019 begann Noora Siddiqui, die Ingenieurin des Teams, mit dem Aufbau der Produktionspipeline mithilfe von Illumina DRAGEN in AWS, einem AWS-Quick-Start, der eine konfigurierbare AWS-Umgebung für DRAGEN einrichtet. Nach 3 Wochen wurde der erste Skalentest durchgeführt und nach etwas mehr als 3 Monaten war die Pipeline betriebsbereit. „Wir haben die Pipeline mit dem technischen Support von AWS abgeschlossen“, sagt Venner. „Durch den Einsatz von Illumina DRAGEN in AWS konnte unsere Ingenieurin die Lösung in ein neues Produktionssystem integrieren.“

 Mit DRAGEN von Illumina in AWS ist Baylor in der Lage, bei Bedarf zu skalieren und Daten deutlich schneller als zuvor zu verarbeiten. Das HGSC verarbeitet jeden Monat etwa 5 000 Genome. „Jeder hat einen Sequenzer und einen Plan, aber 5 000 Genome pro Monat zuverlässig zu sequenzieren, ist enorm schwierig“, sagt Gibbs. „Das machen wir hier. Es erfordert viel technisches Geschick und Unterstützung, ist aber für die Branche von großem Nutzen.“ 

Die DRAGEN-Lösung von Baylor beschleunigt die Analyse genomischer Daten mithilfe von Amazon Elastic Compute Cloud (Amazon EC2) F1-Instances; DRAGEN verwendet FPGAs, um benutzerdefinierte Hardwarebeschleunigungen bereitzustellen. „Unsere Workloads werden in kurzen, plötzlichen Schüben übertragen“, sagt Venner. „Wenn große Datenmengen von den Sequenzierungsinstrumenten ausgehen, verwenden wir FPGAs in AWS, um die Daten schnell zu verarbeiten.“ Das Center verwendet Amazon-EC2-F1-Instances zusammen mit Amazon-EC2-Spot-Instances, mit denen Benutzer fehlertolerante Workloads mit einem Rabatt von 90 Prozent im Vergleich zu Amazon-EC2-On-Demand-Instances ausführen können. „Mit Spot Instances können wir Rechenkosten sparen“, sagt Venner. 

Das HGSC speichert seine Live-Daten mithilfe des Amazon Simple Storage Service (Amazon S3), einem Objektspeicherservice, mit dem beliebige Datenmengen von überall abgerufen werden können. Daten, die nicht sofort verwendet werden müssen, werden automatisch an Amazon S3 Glacier weitergegeben, das sichere, langlebige und extrem kostengünstige Cloud-Speicherklassen für die Datenarchivierung und Langzeitsicherung bietet. „Das Speichermanagement und der automatisierte Datenlebenszyklus in AWS sind sehr wichtig“, sagt Venner. Das Informationstechnologieteam des HGSC verwendet AWS, um die Sicherheits- und Compliance-Standards zu erfüllen. „Es ist einfacher, Sicherheitsaudits in einer neuen Cloud-Lösung durchzuführen als in einer alten Umgebung mit viel integriertem Gepäck“, sagt Venner.

Das HGSC kann schnell Computing-Umgebungen erstellen, da seine DRAGEN-Lösung Amazon Elastic Container Service (Amazon ECS) verwendet, einen vollständig verwalteten Container-Orchestrierungsservice für die Bereitstellung, Verwaltung und Skalierung containerisierter Anwendungen. „Es ist wertvoll, die Umgebung zu erfassen, in der ein Job ausgeführt wird“, sagt Venner. „Traditionell haben Menschen komplexe Umgebungen geschaffen und verwaltet, um verschiedene Arten von Jobs am selben Ort auszuführen. Jetzt erstellen wir einfach eine Umgebung, die spezifisch für den laufenden Job ist, was das Debuggen vereinfacht.“ 

Anwendung von Illumina- und AWS-Lösungen im Gesundheitswesen

Mit DRAGEN von Illumina in AWS hofft das HGSC, seine Technologie vollständig in Arztpraxen integrieren zu können. Durch die Analyse menschlicher Genome kann das HGSC die Gesundheitsrisiken einer Person vorhersagen, zugrundeliegende Krankheiten erklären und das klinische Management verändern, was eine umfassendere Versorgung der Patienten ermöglicht. Zum Beispiel hat das HGSC kürzlich mit Herz-Kreislauf-Kliniken des Texas Medical Center zusammengearbeitet, um die HeartCare-Studie durchzuführen, die sich auf die Identifizierung von Genen konzentriert, die mit Herz-Kreislauf-Erkrankungen in Verbindung stehen. „Wir haben uns mit kardiovaskulären Allelen mit hoher Penetranz in Schlüsselgenen befasst und untersucht, wie Einzelpersonen im Rahmen des klinischen Versorgungsmodells von diesen Informationen profitieren könnten“, sagt Venner.

In Zukunft wird Baylor weiterhin AWS-Services und Illumina-Lösungen untersuchen, um die Sicherheit und Geschwindigkeit der Datenverarbeitung weiter zu verbessern. „Wir hoffen, den Zugang zu genetischen Daten zu verbessern, insbesondere für diejenigen, die im medizinischen System unterversorgt sind oder bei denen es viele Versorgungslücken gibt“, sagt Gibbs. „Sie werden im Vordergrund stehen. Wir wollen ihnen helfen, auf genetische Informationen zuzugreifen, die für ihre Gesundheitsprofile nützlich sein werden.“


Über das Baylor College of Medicine

Das Baylor College of Medicine in Houston, Texas, beherbergt das Human Genome Sequencing Center, eines der wenigen Genomsequenzierungszentren in den Vereinigten Staaten, das von den National Institutes of Health finanziert wird.

Vorteile von AWS

  • Aufbau der Datenpipeline in etwas mehr als 3 Monaten
  • Verarbeitet Daten schneller als in der vorherigen Pipeline
  • Verarbeitet etwa 5 000 Genome pro Monat
  • Rekrutiert Top-Talente aus dem Ingenieurwesen
  • Vereinfacht Sicherheit und Compliance
  • Automatisiert Speichermanagement und Datenlebenszyklusprozesse
  • Skaliert automatisch, um Volumenschübe zu bewältigen

Genutzte AWS-Services

Amazon EC2

Amazon Elastic Compute Cloud (Amazon EC2) ist ein Web-Service, der sichere, skalierbare Rechenkapazitäten in der Cloud bereitstellt. Der Service ist darauf ausgelegt, Web-Scale-Cloud-Computing für Entwickler zu erleichtern.

Weitere Informationen »

Amazon-EC2-F1-Instances

Amazon-EC2-F1-Instances nutzen FPGAs für die benutzerdefinierte Hardwarebeschleunigung in der Cloud. F1-Instances sind einfach zu programmieren und enthalten alles, was Sie zum Entwickeln, Simulieren, Debuggen und Kompilieren Ihres Hardwarebeschleunigungscodes benötigen, einschließlich eines FPGA Developer AMI und der Unterstützung der Entwicklung auf Hardwareebene in der Cloud.

Weitere Informationen »

Amazon EC2-Spot-Instances

Mit Amazon EC2 Spot-Instances können Sie die Vorteile nicht genutzter EC2-Kapazitäten in der AWS Cloud nutzen. Spot-Instances sind mit einem Rabatt von bis zu 90 % im Vergleich zum On-Demand-Preis verfügbar.

Weitere Informationen »

Illumina DRAGEN in AWS

Die DRAGEN-Bio-IT-Plattform ermöglicht die ultraschnelle Analyse von Next-Generation-Sequencing-Daten (NGS), reduziert die zur Analyse von Genomdaten erforderliche Zeit beträchtlich und verbessert die Genauigkeit.

Weitere Informationen »


Erste Schritte

Organisationen aller Größen aus verschiedenen Sektoren transformieren Ihre Unternehmen und erfüllen ihre Missionen täglich mithilfe von AWS. Kontaktieren Sie unsere Experten und begeben Sie sich noch heute auf Ihre eigene AWS-Reise.