UK Biobank の研究分析プラットフォームを支える DNAnexus & Amazon Web Services (AWS) のパワーテクノロジー

エグゼクティブサマリー

世界中の研究者は、ペタバイト規模の生物医学データベースおよび研究リソースである UK Biobank に安全にアクセスすることを必要としていました。AWS パートナーである DNAnexus は、Amazon S3 と Amazon EC2 を活用して、承認されたユーザーが仮想環境でファイルの「ソフトコピー」を安全に表示および分析できるようにする、スケーラブルなプラットフォームを構築し、運用しました。これにより、医療データのセキュリティが確保され、独自のストレージや分析インフラストラクチャを持たない研究者に対するアクセスが民主化されました。

さまざまな要因を理解する

2 型糖尿病、がん、アルツハイマー病などの複雑な病気を理解して治療するには、科学者は、一定の時間における、遺伝的な要因、環境的な要因、ライフスタイル上の要因の関係を理解する必要があります。この性質の縦断的なデータを収集することは極めて困難です。そのため、グローバルな科学コミュニティは、UK Biobank として知られる、共同の大規模な生物医学データセットと研究リソースから大きな恩恵を受けることができます。

2019 年に実施された認知症に関する研究では、196,383 名の UK Biobank 参加者からのデータに基づき、遺伝的リスクにかかわらず、健康的なライフスタイルで生活することで、認知症のリスクが低下する可能性が示唆されています。その研究結果は、介入が認知症の遺伝的リスクを下げる可能性があることを示すものでした。40 歳から 69 歳までの 472,000 名の UK Biobank 参加者を対象とした 2018 年の研究では、喫煙、糖尿病、および高血圧によって、男性よりも女性の心臓発作のリスクが高まるという結論が得られました。女性では、高血圧は、男性全体と比較して 80% 高いリスクと関連していました。1 型糖尿病患者では、女性の心臓発作のリスクは男性の約 3 倍高く、2 型糖尿病患者では、女性のリスクが 47% 高いことが示されました。

2006 年から 2010 年の間に、UK Biobank は英国全土から 500,000 名のボランティアを募集しました。各参加者は、血液、尿、唾液のサンプルなど、自らのライフスタイルや身体測定に関する詳細な情報を提供しました。これらは、将来の分析のために保存されます。UK Biobank は、継続的なデータ収集をセットアップし、電子健康記録の統合と組み合わせて、参加者ごとに数万のデータポイントを生成しました。完全なジェノタイピングデータが 2017 年に追加され、500,000 名の参加者全員からの全ゲノムシーケンスデータが 2023 年初頭に公開される予定です (シーケンスコンポーネントは最近完了しました)。UK Biobank は、そのデータベースのデータ量が 2025 年までに 40 ペタバイトを超えると予想しています。

この大規模なデータ収集の最終的な目的は、承認を受けている世界中の研究者が、さまざまな疾患をより良く理解し、予防し、治療できるようにすることです。しかし、このような規模と複雑さのデータセットは、前例のないデータ管理上の課題を生み出しています。そこで DNAnexus の出番です。長期にわたって AWS ライフサイエンスコンピテンシーパートナーであり続けている DNAnexus は、科学研究者が複雑な生物医学データに安全にアクセスし、分析および運用できるよう支援することをミッションとして、2009 年に設立されました。そのスケーラブルなプラットフォームはコラボレーションを促進し、ユーザーがゲノムデータや臨床データを含む複数のデータタイプをまとめて分析できるようにします。これは、複雑な疾患の解明に取り組んでいる研究者にとって重要な機能です。

「主な課題は、データを 1 か所にまとめて、研究者が遺伝学、ライフスタイル、イメージングなどの幅広いデータタイプにわたって、データのレプリケーションがない状態で、数百万のメトリクスを分析できるようにすることでした」と
DNAnexus の Biobanks のゼネラルマネージャーである Asha Collins 氏は述べています。「同程度に重要だったのは、研究者がこの膨大なデータセットを実際に簡単に操作できるようにするために、必要なコンピューティングとデータストレージを当社が提供する方法を見出さなければならなかったということです」。

2020 年、DNAnexus と AWS は、データに対するアクセスを民主化するために、UK Biobank との 3 年間のコラボレーションを開始しました。各組織は協力して、高コストで時間のかかるデータのダウンロードを、革新的なクラウドベースの Research Analysis Platform (RAP) に置き換えました。これにより、
研究者は、世界中のどこからでも UK Biobank データベース全体に安全にアクセスして分析できるようになります。成功するかどうかは、初期の開発に加えて、増加するデータ量を管理し、一元化された環境で分析ツールを提供するプラットフォームの能力にかかっていることを UK Biobank は理解していました。

「主な課題は、データを 1 か所にまとめて、研究者が遺伝学、ライフスタイル、イメージングなどの幅広いさまざまなデータタイプにわたって、データのレプリケーションがない状態で、数百万のメトリクスを分析できるようにすることでした。同程度に重要だったのは、研究者がこの膨大なデータセットを簡単に操作できるようにするために、必要なコンピューティングとデータストレージを当社が提供する方法を見出さなければならなかったということです」。 

- DNAnexus、Biobanks のゼネラルマネージャー、Asha Collins 氏

「ソフトコピー」の共有

研究者は当初、カスタムデータ配信システムを介して UK Biobank のファイルにアクセスしていました。これは、研究者が独自の環境でダウンロードおよび分析できるように、初期の表形式のデータをパッケージ化したものでした。しかし、より多くのデータが利用可能になり、より多くの研究者がアクセスを求めるようになるにつれて、個別のアプローチを維持するのは困難になりました。2021 年後半までに、90 を超える国々の 28,000 名を超える学術および業界の科学者が、UK Biobank のデータベースおよび研究リソースへのアクセスを承認されています。

「私たちは現在、世界中で複数のデータコピーを管理することが、これらのすべてのグループにとって効率的ではなく、費用対効果も高くない規模に近付きつつあります」と UK Biobank の副 CEO である Mark Effingham 氏は述べています。「承認された研究者をデータの利用が可能な環境に導くことができるように、別のアプローチを取る必要がありました」。

DNAnexus は、UK Biobank のユーザーにかかるインフラストラクチャおよびコストの負担を軽減する安全な代替手段を生み出しました。単一バージョンのデータは、Amazon Simple Storage Service (Amazon S3) を使用して保存されます。Amazon S3 は、UK Biobank の継続的な成長をサポートし、それに対応できるスケーラブルなクラウドベースのインフラストラクチャです。

このプラットフォームは、研究者にデータをインテリジェントに提供し、データの重複を最小限に抑えます。研究者は、これらのファイルに直接アクセスできません。代わりに、これらの研究者は、アクセスが承認されているデータサブセットの「ソフトコピー」を提供する仮想環境を通じて操作します。

コラボレーションでは、安全かつサイズ変更可能なコンピューティングキャパシティをクラウド内で提供するウェブサービスである Amazon Elastic Compute Cloud (Amazon EC2) も活用しています。DNAnexus は Amazon EC2 を利用することで、研究者が分析を実行したときにのみ料金が発生する、柔軟でスケーラブルなプラットフォームを実現しています。このプラットフォームは、オンデマンド料金と比較して最大 90% の割引料金で利用できる Amazon EC2 スポットインスタンスも活用できるため、非常に大きなジョブでも経済的に実行できます。

「このプラットフォームで DNAnexus および AWS と連携することで、研究者が独自のデータ分析に関与および実行できるだけでなく、それらの分析を実際にサポートするために、作業している場所にかかわらず、スケーラブルなクラウドインフラストラクチャ、コンピューティング、およびストレージを費用対効果の高い方法で使用できる領域が出現します」と Effingham 氏は述べています。「私たちは、世界中のすべての研究者のためにデータの価値を最大化し、アクセスを民主化する研究プラットフォームを提供できることを誇りに思っています」。

仮名化による安全なアクセス

リンクされた健康記録を持つ 50 万名の参加者についてのインサイトを共有することは、データプライバシーの観点から困難です。このデータを保護するために、相互につながりを持つ多くの生物医学データポイントの価値を維持しながら、DNAnexus は仮名化のシステムを開発しました。

「これにより、内部で保持するデータのコピーは 1 つとなり、大幅なコスト削減が実現します」と Collins 氏は説明します。「そのデータは適切に仮名化され、仮想領域に『ソフトコピー』されます。そこでは、ファイル名が適切に変更された状態で、承認されたファイルと表形式のフィールドを表示できます」。

UK Biobank は強化されたセキュリティ対策を採用しているため、各研究者が取得するデータのコピーは必ずわずかに異なります。参加者 ID は、研究者ごとに仮名化されます。これらの ID はファイル名とコンテンツ自体の両方に埋め込まれており、これによって DNAnexus による仮名化サポートの構築が可能となっています。このプラットフォームは、上記の「ソフトコピー」といくつかの安全なダウンロードメカニズムを活用することで、いずれのデータも複製することなく、何千人もの研究者のためにこれらの困難な要件を解決しました。

DNAnexus は、マルチオミクス集団データセットへの安全なアクセスを仲介できるプラットフォームのニーズの高まりに対応するために、この機能を開発しました。このデータセットは増大し続けています。

UK Biobank のデータベースは、世界の研究コミュニティにとって強力なリソースであることが既に実証されており、公衆衛生を改善する可能性のある新しい科学的発見を後押ししています。Research Analysis Platform は、科学的発見のスピードと規模を拡大し、アクセスを民主化する可能性を秘めています。これにより、承認された研究者が世界中のどこからでもデータに対して独自の分析を行い、人間の病気についての理解を深めることができます。さらに、RAP はゲノミクスと臨床データの統合と調和に伴う複雑さを解決します。また、ユーザーが複数のデータタイプを分析し、クラウドベースのプラットフォーム内で同じ研究プロジェクトに取り組むことができるようにすることで、研究者間のコラボレーションを促進します。この成功は、スケーラブルで俊敏なソリューションで知られる DNAnexus や AWS などのパートナーと協力する選択肢を UK Biobank にもたらし、さらなる成長を促進する可能性が高いです。

Biobank

お客様について

UK Biobank は、大規模な生物医学データベースおよび研究リソースです。これには、英国の 50 万名の参加者からの詳細な遺伝および健康情報が含まれています。データベースには定期的にさらなるデータが追加されており、極めて一般的で生命を脅かす疾患について重要な研究を行っている研究者は、承認を受けることで世界中からアクセスできます。UK Biobank は現代の医学と治療の進歩に大きく貢献し、人間の健康を改善するいくつかの科学的発見をもたらしました。

DNAnexus について

DNAnexus は、世界の生物医学データにアクセスし、分析および翻訳するための安全で信頼できるクラウドプラットフォームを確立し、ヘルスケアとライフサイエンスの領域で、世界を一変させるブレークスルーを生み出す科学コミュニティをサポートしています。

公開: 2022 年 5 月