CelerisTx: AWS 기반 ML을 활용한 난치병 신약 개발

이 콘텐츠는 어떠셨나요?

근접 유도 화합물(PIC)에 전산 신약 개발 방식 활용

인류는 질병을 치료하기 위한 수많은 치료 솔루션을 발전시켜왔습니다. 녹아웃 (CRISPR - DNA 수준에서 작용) 및 녹다운(RNAi - RNA 수준에서 작용)과 같은 최신 기술에는 상당한 한계가 있습니다. 이와 대조적으로, 근접 유도 화합물(PIC)은 소분자의 여러 가지 고유한 이점을 결합합니다. 그러한 유용한 특징으로는 CRISPR 및 RNAi와 같은 침묵 기술과 경구 생체이용률, 제조 용이성 등이 있습니다. RNAi 및 CRISPR과 달리 PIC는 단백질에 영향을 미치므로, 특히 질병과 관련한 표적 단백질에 대한 획기적인 치료 방법을 제공합니다. 단백질을 표적으로 하는 대안으로는 생물학적 제제와 억제제가 있으며, 이러한 대안으로는 표적이 될 수 있는 병원성 단백질의 범위가 확대되지 않았습니다. 병원성 단백질의 80% 이상이 아직 약학적 개입이 불가능한 질병과 관련이 있습니다.

표적 단백질 분해(TPD)는 2000년대 초에 처음으로 선보여 가장 널리 사용되고 있는 근접 유도 약물 방식입니다. 또한 2004년에는 유비퀴틴 매개 단백질 분해 현상을 발견한 공로로 이 연구에 노벨 화학상을 수여하기도 했습니다. TPD 개념은 체내의 세포 기계를 가로채어 단백질을 선택적으로 분해하는 것을 포함합니다. 억제제와 같은 점유 기반 방식에 비해 TPD 메커니즘은 단순히 증상을 치료하는 데 그치는 것이 아니라 스캐폴딩 기능을 제거하여 문제의 근본 원인을 해결할 수 있다는 이점이 있습니다. 일반적으로 생물학적 항상성을 유지하려면 세포 내에서 잘못 접히고 변성된 단백질을 제거하는 도구가 필요합니다.

PIC를 통해 리소좀, 자가포식 등 다양한 기계를 적극적으로 활용할 수 있지만, Celeris Therapeutics는 유비퀴틴-프로테아좀 시스템에 집중하고 있습니다. 이 시스템을 기반으로 원치 않는 단백질에는 작은 신호 단백질인 유비퀴틴을 태깅합니다. 결과적으로, 이 과정은 병원성 단백질의 분해를 촉발합니다.

하지만 실험실 환경에서 TPD를 평가하는 방식은 느리고 비용이 많이 듭니다. 이에 Celeris Therapeutics는 단백질 분해를 효과적으로 예측하여 신약 개발 일정을 단축하고 간소화하는 컴퓨터 워크플로를 구현했습니다.

근접 유도 화합물

Celeris Therapeutics(CelerisTx)는 표적 단백질 분해에 집중하면서 PIC에 AI를 도입하는 솔루션 분야를 개척하고 있습니다. 데이터 측면에서 볼 때, 단백질 분해에서 이는 특정 방식으로 서로 상호 작용하는 여러 분자를 식별하는 것을 의미합니다. LEGO® 브릭을 떠올려 보세요. 이러한 요소들은 단일 차원(예: 모양)에 따라 서로 맞추는 것이 아니라 여러 차원이나 요구 사항을 충족해야 합니다. 그러한 차원으로는 화학적, 생물학적, 물리적 차원 등이 있습니다. 즉, 상호 작용에는 특정 법칙이 적용됩니다. 이러한 법칙을 수치화하여 데이터에 포함해야 합니다. 이러한 정보의 구체적인 예로는 그래프, 소수성 또는 정전기 전위로 나타내는 분자의 3D 구조가 있습니다. TPD 전문가가 큐레이트하는 특성은 총 20여 개에 달합니다. 그 결과 기계 학습 알고리즘, 특히 기하학적 딥 러닝 파이프라인을 사용하여 분석해야 하는 엄청난 양의 데이터가 생성되고 있습니다. 소위 삼원 복합체에 관여하는 분자 간의 상호 작용 정도를 결정하려면 명확한 ML 적용이 요구됩니다. 즉, 두 단백질의 경우를 고려하면, 상호 작용의 정도를 결정하는 스칼라 값이 필요합니다. 정확하고 일반화할 수 있는 데이터를 확보하는 것에 더해, 성능이 뛰어난 시스템에서 신속하게 예측해야 합니다. 다양한 단백질 간 상호작용을 시뮬레이트할 때 부정확한 예측 결과를 신속하게 폐기하여 공간을 즉시 분석해야 합니다. 이는 2만 쌍 이상의 단백질 쌍이 포함된 상호 작용 데이터 세트에서는 어려운 일이라는 것이 입증되었습니다.

다양한 PIC 검색 프로젝트에 AWS를 활용한 방법

개발자의 작업 시간을 절약하고 기계 학습 개발과 관련한 특정 문제를 더 빠르게 파악하기 위해, 저희는 Amazon SageMaker를 선택했습니다. 이 서비스의 기능 덕분에 편향 감지나 하이퍼파라미터 조정과 같은 일부 기계 학습 인프라 솔루션을 직접 구현하지 않아도 되었습니다. 편향 감지는 데이터 준비 과정에서 중요한 기능이었으므로 SageMaker Clpliay를 활용했습니다. 이 서비스는 모델링을 시작하기도 전에 데이터의 품질을 보장하는 데 중요한 역할을 했습니다. 이후 모델링을 시작한 후에는 SageMaker Deep Graph Library(DGL)와 같은 기하학적 딥 러닝 라이브러리를 직접 통합하는 것이 중요했습니다. DGL은 그래프에 대한 딥 러닝을 지원하는 오픈 소스 Python 패키지인 만큼, 저희는 이를 사용하여 필수적인 기하학적 딥 러닝에 필요한 인프라를 빠르게 설정했습니다.

초기 모델이 설정되면 최상의 하이퍼파라미터를 신속하게 찾기 위해 SageMaker 자동 모델 튜닝을 사용했습니다. 이를 통해 하이퍼파라미터 최적화 프레임워크를 코딩하는 데 소요되는 몇 개월의 개발 시간이 단축된 것으로 추정됩니다. SageMaker Experiments를 활용하여 모든 실험 변경 사항을 추적하고 구성했습니다. 이 솔루션은 특히 중요했습니다. 앞서 언급한, 삼중 복합체에 관여하는 단백질 간의 상호작용 강도를 결정하는 문제, 어텐션 레이어에서 실험한 15개 이상의 기하학적 딥 러닝 아키텍처, 그래프상의 순수 컨볼루션 연산자 등을 생각해 보세요. 결국 어떤 것이 효과가 있을지 판단하는 데에는 다양한 모델 및 각 파라미터의 추적 가능성이 중요했습니다. 모델의 최종 버전을 만든 후에는 모델을 디버깅하고 파이프라인을 추가로 최적화해야 했습니다. 여기에는 SageMaker Debugger가 유용합니다.

저희에게는 SageMaker의 소프트웨어 솔루션과 함께, 방대한 데이터 및 딥 러닝 파이프라인을 지원할 엄청난 컴퓨팅 성능이 필요했습니다. 따라서 기계 학습 워크플로를 훈련하는 데 사용되는 GPU에 최적화된 스팟 플릿 솔루션을 구축했습니다.

ML 파이프라인 비용 최적화

스팟 인스턴스는 온디맨드 요금에 비해 90% 할인된 요금을 제공하는 특별한 유형의 Amazon EC2 인스턴스입니다. 경우에 따라, 컴퓨팅 리소스에 대한 수요가 높아 컴퓨팅 리소스의 가동이 중단되면서 사용자의 전체 계산 세션이 소실될 수 있습니다. 딥 러닝 모델을 장시간 훈련하거나, 스팟 인스턴스에서 오랫동안 실행해야 하는 계산을 실행한 경우, 계산의 중간 결과를 저장하는 것이 중요합니다. 사용자는 계산의 중간 결과를 저장하는 데 더해, 다른 스팟 인스턴스를 사용하여 연결 문제가 발생한 동일한 중간 단계부터 자동으로 계산을 재개할 수 있어야 합니다.

실행 시 GPU 스팟 인스턴스를 생성하라는 스팟 플릿 요청을 Amazon Machine Image(AMI)로 전송하는 스크립트를 생성하는 데 AWS SDK for Python(boto3)이 사용되었습니다. AMI에는 기계 학습 코드를 실행하는 데 필요한 모든 소프트웨어와 종속 구성 요소가 포함되어 있습니다. 또한 Amazon Elastic Container Registery(Amazon ECR)에서 도커 이미지를 다운로드한 후 Git이 리포지토리에서 코드를 복제하도록 하는 사용자 데이터 스크립트를 정의합니다. 마지막으로, 이 사용자 데이터 스크립트는 기하학적 딥 러닝 파이프라인 코드를 실행합니다. 이 코드는 기계 학습 훈련의 각 에포크(epoch) 이후에 데이터 세트, 로그, 모델 및 체크포인트를 Amazon EBS 볼륨으로 전송하도록 수정되었습니다. 객체가 저장되도록 하기 위해 모든 객체를 Amazon S3에 덤프합니다. 스팟 플릿을 정의하는 데 더해, 프로세스에서 연결이 끊긴 스팟 인스턴스를 보충할 수 있도록 했습니다. 이를 통해 S3 버킷에 있는 마지막 체크포인트에서 자동으로 훈련을 계속 이어갈 수 있습니다.

SageMaker는 관리형 스팟 훈련이라는 이와 매우 유사한 기능을 제공합니다. 하지만 SageMaker의 일부로 사용할 경우 EC2 인스턴스가 표준 인스턴스보다 더 비싸기 때문에 SageMaker 제품을 활용하지 않았습니다. SageMaker는 다양한 ML 오퍼링, 사용 편의성, 필요한 엔지니어링 시간 단축 등의 이점을 제공하기 때문에 의미가 있습니다. 여러 해 동안 다양한 용량의 GPU를 사용할 것이라는 사실을 알고 있었기 때문에, 전략적으로 이 솔루션을 설계하는 데 시간을 투자했습니다.

HPC는 AWS를 통해 실현해야 했던 또 다른 중요한 사용 사례였습니다. 기하학적 딥 러닝을 사용하여 구문 분석해야 하는 방대한 데이터 공간에는 상당한 계산 부담이 따릅니다. AWS ParallelCluster를 사용하여 컴퓨팅을 수평적으로 스케일 업하고 공유 파일 시스템인 Amazon FSx for Lustre를 생성하여 모든 컴퓨팅 노드가 동일한 위치에서 데이터에 액세스하고 데이터를 수정할 수 있게 했습니다. 또한 AWS는 Slurm을 워크로드 관리자로 지원하므로 작업을 CPU와 GPU 간에 동시에 분산할 수 있습니다. 이는 결국 더 빠른 실험을 가능하게 할 뿐만 아니라 최적화된 모델 제공도 가능하게 합니다. 다시 말씀드리지만, SageMaker는 대규모 데이터 세트 및 모델에 대해 분산 훈련 라이브러리라는 유사한 서비스를 제공합니다.

근접 유도 화합물의 미래

전임상 연구로 진행 중인 파킨슨병에 대한 파이프라인의 예비 결과를 확인할 수 있습니다. 저희는 새로운 아키텍처와 접근 방식으로 신약 개발 파이프라인을 지속적으로 개선하고 있는 만큼, 전산 신약 개발에서 높은 신뢰성으로 빠르게 실험하는 능력이 저희에게는 필수적입니다. 저희는 연구에 상당한 리소스을 투자하는 R&D 접근 방식을 이용하기 때문에 완화해야 할 지속적인 위험에 직면하게 됩니다. AWS 표준 오퍼링은 민첩성을 유지하고 연구소에서 실험실로, 그리고 시장으로 더 빠르게 진출할 수 있는 하나의 수단이 됩니다.

결론

지금은 신약 개발의 생산성을 높여야 할 때입니다. 무어의 약리학 법칙과는 반대되는 개념인 소위 ‘이룸의 법칙’은 신약 개발에 필요한 연구 개발 비용은 꾸준히 증가할 수밖에 없음을 나타냅니다. 신약 개발을 위한 지속적인 기계 학습 실험을 수행하는 프로세스를 활용하고 간소화함으로써 이 문제를 해결할 수 있습니다.

 	Christopher Trummer

Christopher Trummer

Christopher Trummer는 Celeris Therapeutics의 공동 창립자이자 CEO입니다. 그는 신약 개발 컨퍼런스에서 AI 분야의 기조 연설자로 여러 차례 초청받았으며, 다양한 저널에서 피어 리뷰를 거친 출판물의 공동 저자입니다.

 	 	Noah Weber

Noah Weber

Noah Weber는 Celeris Therapeutics에서 최고 기술 책임자로 재직하고 있습니다. 그는 비엔나 공과대학교와 비엔나 응용과학대학교에서 캐글 그랜드마스터이자 겸임 강사로 재직하고 있습니다.

 	Olajide Enigbokan

Olajide Enigbokan

Olajide Enigbokan은 Amazon Web Services의 스타트업 솔루션스 아키텍트입니다. 그는 Startups(특히 빌더)와 협력하여 AWS 클라우드의 가치를 찾아내는 것을 좋아합니다.

AWS Editorial Team

AWS Editorial Team

AWS Startups Content Marketing 팀은 규모와 업종을 불문하고 모든 스타트업과 협력하여 교육하고, 환대하고, 영감을 주는 뛰어난 콘텐츠를 제공합니다.

이 콘텐츠는 어떠셨나요?