[논문] CellBox

CellBox: Interpretable Machine Learning for Perturbation Biology with Application to the Design of Cancer Combination Therapy

Posted Apr 17, 2025 Updated May 12, 2025

By Cheong seolmo

47 min read

[논문] CellBox

CellBox: Interpretable Machine Learning for Perturbation Biology with Application to the Design of Cancer Combination Therapy

Highlights

CellBox:
- 세포 내 역학에 대한 명시적 모델을 포함하는 머신러닝 프레임워크
- 이전에 관찰되지 않은 자극(perturbation)에 대한 시스템 반응 예측
- CellBox에서 유도된 분자 상호작용은 일반적으로 알려진 생물학적 경로와 일치
- 세포 생물학에서 해석 가능한 과학적 머신러닝의 한 예시

Summary

(배경)세포에 대한 체계적인 perturbation 후, 분자적, 표현형 반응을 측정하는 것은 세포 생물학의 계산 모델을 구축하는 데 유용한 데이터 자원 제공
- perturbation: 세포, 유전자 또는 시스템의 정상적인 상태를 인위적으로 변화시키는 것. 약물 처리, 유전자 조작, 환경 변화 등
(목표)일반화 된 모델 ⟶ 새로운 perturbation 조건에서도 세포 반응 정확하게 예측 ⟶ 새로운 치료법 개발에 활용
(문제)대규모 생물학적 데이터 세트에 대한 머신 러닝의 주요 과제: 복잡한 다차원 공간에서 global optima를 찾고 솔루션을 메커니즘적으로 해석하는 것 / 모델의 예측 결과를 생물학적으로 의미있게 해석하는 것
- global optima를 찾는 다는 것은 모델이 가장 정확한 예측을 할 수 있는 최적의 파라미터 값을 찾는 것
(접근 방식)세포 역학의 명시적 수학적 모델과 TensorFlow에서 구현된 machine-learning framework를 결합한 하이브리드 접근 방식 도입
- 흑색종 세포주에 대한 약물 치료 후의 perturbation 반응 데이터셋에서 모델링 프레임워크를 테스트
(결과)사전 지식과 독립적임에도 불구하고 de novo 네트워크 모델은 일부 알려진 상호작용 재현
- de novo 네트워크 모델: 사전 지식 없이 데이터로부터 새롭게 학습된 네트워크 모델
(요약)이 연구는 세포에 대한 다양한 perturbation에 따른 반응 데이터를 이용해 세포의 행동을 예측하는 계산 모델을 개발, 이를 통해 새로운 치료법 개발에 기여. 특히 기존 머신 러닝 모델의 해석 가능성 부족 문제를 해결하기 위해 수학 모델과 머신 러닝을 결합한 하이브리드 접근 방식 사용

Graphical Abstract

keywords

perturbation biology
machine learning
interpretability
cell dynamics
systems biology
dynamical systems
combinatorial therapy
network pharmacology
cancer

Introduction

암 치료에서 단일 약제 내성 문제: 단일 항암제를 사용하는 경우 내성이 발생하는 문제 ⟶ Combination therapy
병용 용법: 여러 약제를 함께 사용하면 암 치료에 효과적. 모든 약물 조합을 실험적으로 스크리닝(선별하는 과정)하는 것은 현실적으로 어려움
- 후보 약제 조합을 시험하기 위해 세포의 반응을 기반으로 하는 계산 모델 사용되고 있지만, 모델의 범위 제한적
새로운 조합 치료의 후보를 탐색하는 과정이 보다 효율적으로 이루어질 필요성

Perturbation-Response Profiling in Cell Biology

세포가 perturbation에 어떻게 반응하는지 이해하기 위해 여러 실험적 접근법 사용
- 주로 생화학적 및 세포학적 실험 사용, 특정 단백질-단백질 쌍 간의 관계를 조사하는 데 효과적
- 개별적인 섭동 실험은 작업이 번거롭고, 만들어진 모델은 통찰력을 제공할 수 있지만 세부적인 분자적 또는 시스템 수준의 반응을 정량적으로 예측하는 데에 한계
Phenotypic screening(표현형 기반 스크리닝): 세포 전체의 반응에 대한 정보를 수집하기 위해 세포 생존율이나 성장 속도와 같은 단일 변수 사용.
- Phenotypic Indicators: 세포 생존률, 분열률, 사멸률. 세포 크기, 형태 변화
풍부한 데이터셋 ⟶ 세포 반응 모델링, 넓은 맥락에서 원인 추론 ⟶ 기전 가설을 검증할 실험을 설계하거나 조합 치료 후보 물질을 탐색하는 데 중요

Computational Modeling

세포 간 상호작용을 추론하고 세포 반응을 예측하기 위한 다양한 계산 방법
정적(static) 모델: co-expression models, maximum entropy networks, mutual information 기반의 방법들을 사용하여 분자 간 상호자굥 네트워크 모델을 구축하거나 perturbation에 따른 반응 데이터를 바탕으로 세포 반응을 직접 예측하는 regression 모델 활용
동적(dynamic) 모델: 시간이 흐름에 따라 세포 신호가 표현형 반응으로 전달되는 과정을 기전적으로(mechanistically)설명. Boolean network models, fuzzy logic models, dynamic Bayesian networks, ODE network models 포함. 이러한 모델은 상호작용 파라미터에 대한 사전 지식이 필요하기에 일반적으로 작은 규모의 시스템에서 활용
대규모 기전 모델(mechanistic models)
- 관련 상호작용들에 대한 사전 지식이 필요하지만, 존재하지 않거나 일관된 맥락이 부족하다는 제약
- 엄밀한 접근 방식으로는 하나의 실험 조건에서 체계적인 방식으로 생성된 균일한 데이터셋 활용, 그 맥락에 특화퇸 상호작용 네트워크의 구조를 de novo(처음부터) 추론
- dynamic optimization 접근 방식의 한계
  - 몬테카를로(MC) 방법: 대규모 시스템에 잘 확장되지 못할 수 있음
  - belief-propagation(BP) algorithms: 효율적인 탐색을 위해 과도한 수학적 근사를 요구할 수 있음
⟹ 대규모 시스템에 대해 정확한 파라미터 추론을 가능하게 하고, 복잡한 동역학 모델로 일반화하기 위해, 일반적인 데이터 기반 모델링 프레임워크 필요

Machine Learning and Interpretability

딥러닝 ⟶ 데이터 기반 프레임워크
- gradient descent, automatic differentiation
- 효율적인 파라미터 최적화
- interpretation(이해 가능한 해석)에서의 한계: ‘black box’ problem
연구에서는 black-box neural network 대신 세포 구성요소 간의 명시적으로 해석 가능한 상호작용 네트워크를 포함하는 데이터 기반 모델인 ‘CellBox’ 개발. 딥러닝 최적화 방식을 적용하면서도 높은 학습 성능을 유지하는 것이 목표 (cellbox라는 네이밍은 딥러닝 모델의 blackbox라는 단어에서 착안한 듯함)
CellBox: 세포 반응 계산 모델링 프레임워크
1. perturbation과 phenotypic changes를 하나의 통합된 계산 모델로 연결
2. dynamical 세포 반응의 정량화
3. 대규모 시스템에 대한 학습 효율성과 확장성
4. 신호전달 경로 등 기존 분자생물학 모델과 비교 가능한 해석 가능성(interpretable interactions)
CellBox는 99개의 생물학적 구성요소(단백질, 전사인자 활성도, 표현형 지표, 분자간 상호작용의 노드 등)로 구성된 비선형 ODE 기반 모델을 구축하여 perturbation, 단백질 반응, 표현형 간의 연결을 통해 세포의 동적 행동 시뮬레이션. 네트워크의 연결 구조는 89개의 실험 조건(perturbation type, single or combinatorial perturbations, cell line, measured outputs 등) 하에서의 post-perturbational data로부터 직접 학습되며, 훈련 데이터의 분자 및 세포 반응을 정확히 재현하는 것이 목적 ⟶ gradient descent를 사용하여 ODE 네트워크 내 상호작용 파라미터를 추론 ⟶ 새로운 교란 조건에서도 세포 행동을 예츨할 수 있도록 모델 훈련
데이터 기반 모델의 핵심 성능 기준은 소수의 실험으로 학습한 상태에서도, 이전에 보지 못한 다양한 교란 조건에 대해 합리적인 정확도의 예측을 제공할 수 있는가 ⟶ CellBox를 광범위한 동적 세포 활동을 모델링할 수 있는 범용적인 프레임워크로 제안

Results

CellBox Model of Perturbation Biology

perturbation 데이터의 조건
1. 특정 perturbation 조건들에 대해 단백질 수준의 변화와 세포 행동의 변화를 짝지어 측정한 데이터 존재
2. training data와 withheld data(검증용 또는 보류 데이터) 구분
89개의 perturbation 조건에 각각에 대해 cell lysates 내 82개의 선택된 단백질 및 인산화 단백질(phosphoprotein)의 수준이 perturbation 전과 perturbation 후 24시간 시점에서 antibody-based Reverse Phase Protein Arrays(RPPA) 기법으로 측정 ⟶ 세포 내 신호 네트워크의 입력 및 중간 반응 지표로 활용. 각 perturbation 조건에서 단백질/인산화 단백질 정량화 ⟶ 세포 반응을 동적으로 학습할 수 있는 분자 데이터
- RPPA 기법: 단백질 수준에서 다수의 샘플을 동시에 high-throughput 방식으로 분석할 수 있는 항체 기반 기술. 세포 내 신호전달 경로, 단백질 발현량, 인산화 상태 등을 정량화. 기존 단백질 microarray와 유사하지만 샘플이 고정된 고체 표면에 직접 도포됨. 세포 또는 조직에서 단백질을 추출해 만든 세포 용해물(lysate)이 샘플.
phenotype 분석: cell cycle progression, cell viability
⟹ 분자 수준(단백질)과 세포 수준(표현형)의 반응을 동일한 교란 조건 하에서 병렬적으로 측정, 해당 데이터셋은 분자 변화와 세포 반응을 정량적으로 연결할 수 있는 네트워크 모델 구축을 위한 정보 제공
Figure 1
- CellBox: 교란 데이터를 활용한 세포 시스템의 동적
- (A): perturbation 및 반응 측정
  - drug와 같은 perturbation을 통해 세포 시스템에 변화 유도. 세포 반응은 두 가지 수준에서 측정
    - 분자 수준: 단백질 및 인산화 단백질의 발현량 변화
    - 세포 표현형 수준: 세포 생존률, 세포 주기 등
- (B): CellBox 모델 구축 및 예측
  - 반응 데이터를 이용해 interpretable한 머신러닝 모델 CellBox 구축
  - 단백질/인산화 단백질과 세포 표현형 변수 사이의 상호작용을 ODE 집합으로 표현
  - interaction parameters를 최적화하며 학습 ⟶ 목표: 수치적으로 시뮬레이션된 시스템 반응이 실험에서 관측된 반응과 잘 맞도록 하는 것
  - 학습 후 CellBox는 기존의 pairwise perturbation-response data을 바탕으로 학습한 모델 활용, 새로운 perturbation 조건에 대한 세포 반응 예측
drug perturbations에 대한 세포 시스템의 동적 반응을 모델링하기 위해, nonlinear envelope이 포함된 ODE 집합 사용
ODE 모델의 핵심 구성 요소
- 상호작용 파라미터 \(w_{ij}\)
  - 네트워크 내 각 생물학적 구성요소들(\(i\), \(j\)) 사이의 상호작용 강도
  - 전체 모델에서 약 10,000개의 파라미터 존재
- 상호작용 구조는 단순한 형태에 비선형 함수 \(\varphi\)가 적용되어 복잡한 세포 반응 표현
- restoration term(복원 항): \(-\alpha_{i}x_{i}(t)\)
  - 시간에 따라 자연적으로 상태가 감소하는 decay를 반영(해당 단백질의 활성 상태가 외부 자극 없이 점점 줄어드는 것. 탈인산화(dephosphorylation), 단백질 분해(proteolysis), 회복 메커니즘(homeostasis) 등)
- ⟹ 구성요소는 계산적으로 mean-field 접근법과 유사하게 작용. 데이터가 전체 세포 구성요서의 일부만을 포함하는 현실적인 제약에서, 모델의 불안정성을 방지하기 위해 도입된 장치
학습 과정
- 초기화 및 최적화
  - \(w_{ij}\)는 random initialization
  - 모델 학습 중 반복적으로 업데이트하며 loss function 최소화
- 손실 함수의 정의(STAR Methods의 Equation 3 참고)
  - 실험 데이터와 모델 예측 간의 유클리드 거리
  - 네트워크 밀도에 대한 L1 정규화 항(과적합 방지)
수치 해법 및 최적화 기법
- ODE 시스템의 수치적 해법에는 Heun’s method 사용
  - Heun’s method: 2차 정확도의 Euler method
- 모델 최적화는 Adam optimizer 활용

CellBox Can Be Trained on Perturbation Data to Predict Cell Response Accurately

CellBox 모델 학습 방식의 예측 성능을 평가
- 전체 perturbation 데이터의 70%(62개 조건): training set
  - 20%: validation set
- 30%(27개 조건): test set
hyperparameters 최적화
- 학습률(learning rate)
- 정규화 항(regularization)
- ODE simulation time
ODE 시스템의 수치 해법 결과는 실험 데이터에 매우 근접하도록 수렴(convergence)
이러한 모델링 절차는 무작위로 perturbation 데이터를 분할한 총 1,000개의 경우에 대해 독립적으로 반복, 각 경우마다 개별 CellBox 모델 학습 ⟶ 평균 예측값은 실험 데이터와 높은 상관관계. Pearson’s correlation coefficient: 0.93(Figure 2C 참고)
개별 perturbation 조건에 대한 세부 분석에서는 모델이 모든 조건에서 고르게 잘 학습(Figure 2D 참고)
단백질 프로파일링 데이터에 일반적으로 적용되는 스케일링 여부와 모델 성능은 무관
Figure 2
- CellBox의 수렴 및 무작위 학습-테스트 분할에 대한 예측 정확도
- (A): 학습 과정 동안의 손실 감소 및 모델 수렴
  - training set(56%), validation set(14%), test set(30%)에 대해 mse가 거의 단조롭게 감소 ⟶ 모델은 학습 종료 시점에서 효율적으로 수렴(convergence)
- (B): 예측 반응 vs 실험 결과 (steady state)
  - 학습된 ODE 모델은 drug perturbation 이후 steady state 에서 분자 및 표현형 반응 예측 ⟶ 예측값은 실험 결과와 잘 일치
  - 그림에는 일부 분자 측정값과 표현형 측정값을 예시로 제시
    - 분자(단백질/인산화 단백질): MAPKpT202, YB1pS102, MEKpS217, p27
    - 표현형: G2/M phase 비율, G1 arrest
  - 세포 반응(cell response) 정의: \(log_{2}(\frac{post-perturbation}{pre-perturbation})\)
- (C): 전체 모델 평균 예측 정확도
  - 서로 다른 데이터 분할로 학습된 1,000개의 CellBox 모델에 대해, 모든 교란 조건과 모든 분자/표현형 측정값에 대해 예측값과 실험값 간의 상관관계 분석
  - 피어슨 상관 계수: \(\rho\) = 0.926
  - 회귀선은 dark blue로 표시, 95% 신뢰구간 포함
  - 하나의 점은 하나의 측정값(분자 또는 표현형)
- (D): 개별 교란 조건별 예측 정확도
  - 개별 교란 조건 각각에 대해 모델이 예측한 값은 실험 측정값과 높은 상관관계
  - CellBox는 특정 조건에 대한 바응도 정확하게 예측할 수 있음을 보임
비록 전체 모델 중 약 70%가 ODE의 steady solution에 도달했지만(Figure 2B 참고), 일부 모델은 진동하는 해(oscillatrory solution)에 수렴(Figure S4A 참고)
진동이 모델 학습 시 데이터 분할(data partitioning)의 인위적 산물인지 확인하기 위해, 동일한 학습-검증 데이터 분할을 유지한 채 여러 다른 랜덤 시드를 사용해 모델을 다시 학습(STAR Methods 참고)
- 동일한 데이터 분할에서도 steady 상태와 oscilliation 상태 두 가지 유형의 행가 모두 발생할 수 있음을 확인 (Figures S4A-S4D 참고)
진동하는 해의 발생은 ODE solver의 종류와 무관하게 나타남(Figures S4E-S4G 참고)
약물 처리 후 24시간이 지나면 세포 반응의 집단 평균이 안정적이고 비진동적인 정상 상태에 도달한다는 가정을 기반으로, 이후 분석에서는 진동하는 모델 제외(STAR Methods 참고)
⟹ CellBox라는 데이터 기반 ODE 모델은 특정 단백질 간 관계나 표현형에 대한 사전 지식 없이도 세포 반응의 동역학을 정확히 예측할 수 있도록 학습될 수 있음

CellBox Model Predicts Cell Response for Single-to-Combo and Leave-One-Drug-Out Cross-Validations

데이터셋에 대한 random partitioning은 훈련 데이터와 테스트 데이터 간 정보 공유 가능성에 대한 우려.
- 두 데이터셋에 포함된 약물 조합 조건(combinatorial)들이 동일한 약물을 포함할 수 있기 때문에 test set이 training set과 독립적인 것으로 간주되기 어렵고, 이는 모델 성능을 엄격하게 평가하는 데 한계
- 어떤 조합도 모델의 학습에 포함되지 않은 상태에서 특정 약물 조합의 효과(dominant, additive, synergistic)를 예측하는 것은 어려운 문제(실험적으로 검증 되지 않은 약물 조합의 예측).
⟹ 단순히 무작위 분할을 사용하는 대신 염격한 조건의 평가 과제 설계
- Single-to-combo 분석: 모든 단일 약물 처리 조건만을 학습에 사용, 조합 약물 조건들에 대해 예측 수행
- Leave-one-drug-out 교차검증: 특정 약물을 포함한 모든 조합 조건(단일 약물 조건 포함 혹은 제외)을 test set로 하고, 나머지를 training set로 사용
엄격한 조건에서도 모델은 여전히 높은 정확도의 예측 결과
- 예측값과 실험값 사이의 Pearson’s correlation
  - signle-to-combo: 0.93
  - leave-one-drug-out(단일 조건 포함): 0.94
  - leave-one-drug-out(단일 조건 제외): 0.79
- CellBox 모델은 이전에 perturbation Biology에서 사용된 BP 동적 모델보다 예측 정확도가 높음
  - CellBox는 비교적 적은 양의 perturbation data를 통해도 학습이 가능, 보지 못한 조합 조건들에 대해서도 일반화된 예측 가능
  - 특히 single-to-combo 시나리오에서 선형 모델보다 더 정확한 예측 제공(Figure S7 참고), 이는 CellBox가 nonadditive(synergistic or antagonistic) 효과를 포착할 수 있음을 시사: 치료용 약물 조합을 제안하는 데 특히 유용한 특성
Figure 3
- CellBox는 Single-to-Combo 및 Leave-One-Drug-out 교차검증에서 세포 반응을 정확히 예측
- (A): Single-to-Combo 예측: 단일 약물 처리 조건만으로 학습 데이터 사용
  - 조합 약물 처리 조건의 효과를 높은 정확도로 예측
  - dynamic neytwork model inferred by using BP, static co-expression network model, neural network regression model에서 같은 데이터로 학습한 것과 비교해도 뛰어난 성능
- (B): Leave-One-Drug-Out: 특정 약물을 포함하는 조합 약물 처리 조건들을 학습에서 제외
  - 특정 약물이 다른 약물과 조합된 데이터만 제거
  - 학습하지 않은 약물 쌍의 효과를 정확히 예측 ⟶ 일반화 성능이 뛰어남
- (C): Leave-One-Drug-Out: 특정 약물에 관련된 모든 처리 조건(단일 조건과 조합 조건 포함)을 학습에서 제외
  - 예측 정확도가 떨어지긴 하지만 의미있는 수준의 예측
CellBox 모델은 세포 생물학적 시스템의 동적 네트워크 모델, 분자 상호작용의 해석 가능한(interpretable) 네트워크 모델. 정적 네트워크 모델(Co-exp) 및 딥러닝 신경망 모델(NN)과 비교
- Co-exp: 각 단백질 노드 쌍 간의 공동 발현 상관관계를 학습해 구축
- NN: perturbation의 파라미터화된 정보를 입력으로 받아 표현형의 변화를 직접 예측
- ⟹ mechanistic이고 dynaic 정보가 부족하기 때문에, 정적 네트워크 모델이나 direct-regression model은 약물 조합 타깃을 탐색하는 데 적합하지 못함

Model Performance Is Robust against Noise and Reduced Training-Set Size

Figure 4
- 박스 차트는 각 조건에서의 모델 그룹 평균과 표준편차
- (A): Multiplicative Noise에 대한 모델의 강건성
  - training data에 multiplicative Gaussian noise(\(σ_{mul}\))를 증가시키며 모델 훈련 ⟶ test set에서 예측값과 실험값 간의 correlation는 노이즈가 증가함에 따라 점진적으로 감소
  - \(σ_{mul} = 0.05\)까지의 노이즈는 성능 저하 없이 견딤
- (B): Additive Noise에 대한 모델의 강건성
  - \(σ_{add} = 0.20\)까지의 노이즈는 성능 저하 없이 견딤(전체 데이터의 표준편차 \(σ_{data} = 0.46\)의 약 절반에 해당)
- (C): 학습 데이터 양 증가에 따른 성능 변화
  - 데이터 양이 전체의 40%에 도달했을 때 성능은 포화 상태(plateau)
CellBox 모델의 강건성(robustness)을 평가하기 위해, training data의 품질 또는 양이 저하된 상황에서 모델 성능의 안정성 시험
데이터 품질 저하: 입력된 분자 및 세포 반응 데이터에 다양한 수준의 multiplicative Gaussian noise를 인위적으로 추가한 뒤, 이 노이즈가 섞인 데이터셋을 사용해 모델 학습(곱셈형 노이즈의 가정은, 실험 측정값의 불확실성이나 잡음은 실제 값 근처에서 발생한다는 전제)
- 노이즈가 포함된 데이터로 학습한 모델도 원래 데이터로 학습한 모델과 거의 비슷한 수준의 Pearson correlation 유지
- 5%의 multiplicative Gausian noise가 추가된 경우에도 성능 안정적(Figure 4A 참고)
- 노이즈가 커질수록 모델 수렴(convergence) 속도와 예측 정확도 모두 점진적 감소
데이터 품질 저하: additive Gaussian noise를 비슷한 방식으로 추가했을 때도 유사한 결과(Figure 4B 참고)
- \(σ_{data} = 0.20\) additive Gaussian noise, 즉 전체 데이터의 표준편차 \(σ_{data} = 0.46\)의 절반 수준까지는 예측력을 안정적으로 유지
데이터 양 저하: 시럼 데이터셋의 일부(subsample)만 사용해 모델 학습
- 10%에서 90%까지 10%단위로 증가시키며 학습 데이터의 양 조절, 실험 결과 40%만 사용해도 남은 테스트 데이터 정확히 예측(Figure 4C 참고)
- 학습 데이터의 양이 40%를 초과해서 늘어날수록 모델 성능 향상은 점점 둔화(diminishing returns)됨을 확인
- 약 100개의 상호작용 요소들로 구성된 네트워크가 포함된 이 데이터셋의 경우, perturbations conditions의 수가 3,000여 가지에 달함에도, 그중 40-100개 정도의 조건만으로도 예측력 있는 모델 구축 가능 ⟶ 실험 resource 절약하면서도 정확한 예측 모델 개발

Comparison of the Network Models with Prior Knowledge about Pathways

CellBox 수학 모델의 핵심 프레임워크는 ODE. 각 파라미터는 생물학적 상호작용의 세기와 방향
CellBox가 학습한 상호작용이 현재 알려진 biological pathways(세포 내에서 일어나는 일련의 생화학적 반응들, 혹은 분자 간 상호작용 네트워크)와 얼마나 일치하는지 평가하기 위해, 전체 데이터셋을 학습에 사용하여 총 1,000개의 완전한 모델을 생성한 후, 이들로부터 학습된 de novo network edges 분석
edge(상호작용)의 강도와 모델 간 일관성을 동시에 측정하기 위해 t-score 사용(STAR Methods 참고)
- t-score가 절댓값이 클수록 해당 상호작용의 강도가 높고, 여러 모델에 걸쳐 추정값의 분산이 낮아 안정적임을 의미(Figure 5A 참고)
약물의 primary targets을 ground truth으로 설정하고, drug-activity nodes와 downstream protein effectors 간의 상호작용을 집중적으로 분석
- 12개의 모든 drug-activity nodes는 알려진 주요 downstream effector들과 통계적으로 유의미한 edge를 가지고 있었으며, 이들 간의 상호작용 방향성도 기존 생물학적 지식과 일치(Figure 5B 참고)

Figure 5
- Comparison of the Network Models with Prior Knowledge about Pathways
- (A): 상호작용의 t score 분포
  - 1,000개의 full models에서 도출된 모든 상호작용에 대한 t 점수 분포를 분석한 결과
  - 대부분의 상호작용은 t score가 0에 가깝지만 일부 상호작용은 통계적으로 유의미하게 0과 다른 값을 가짐
  - insets는 특정 상호작용들에 대한 강도 분포 예시로, 모델 간 일관된 추정을 보임
- (B): drug target과 downstream effectors 간의 상호작용(A의 붉은 막대) 12개
  - 통계적으로 유의미
  - 상호작용의 방향성도 기존 문헌(literature)과 일치
- (C): top protein-protein 상호작용(A의 푸른 막대)과 기존 데이터베이스 비교
  - Pathway commons(PC, 약 20개의 Biology pathways 데이터베이스를 모아놓은 통합자원) 데이터베이스에 있는 직접적 또는 간접적 상호작용과 대부분 일치
  - 상호작용에 대한 모델 내 강도 분포는 0에서 벗어난 중심값을 가지며, 전체 상호작용의 배경 분포(회색 막대, A의 drug-activity 관련, C의 protein-protein 관련)와 비교해 실질적인 정보가 담겨 있음을 시사
  - 나머지 모든 상호작용의 t score 및 PC와의 비교 결과는 Table S2에 포함
- (D): Network visualization of the top interactions(각 노드별로 가장 강한 두개의 입력/출력 상호작용)
  - 모델이 추론한 상호작용과 PC에 기록된 상호작용 간의 일치 정도를 시각화
CellBox 모델이 얻은 상호작용과 PC 데이터베이스에서 추출한 분자 상호작용 비교
- one-step(A-B) interactions
  - 하나의 요소가 다른 요소의 발현, 인산화 상태, 변화 상태에 영향을 미치는 것을 의미(Figure 5C, 5D 참고)
- two-step(A-X-B) interactions
- logical(>2 step) interactions
  - 예측에 유용할 수도, 오류일 가능성도 존재
모델과 문헌의 상호작용 일치
- one-step interactions
  - AKTpS473(AKT 단백질 키나아제)의 인산화가 IRS1(인슐린 수용체 기질 단백질1)을 억제하는 상호작용
  - MAPKpT202의 활성화가 p27 단백질 수준에 영향을 미치는 것
- two-step interactions
  - Rb1 단백질이 p21을 거쳐 cyclinD에 영향을 미치는 것
  - MEK1은 ERK1/2를 통해 인산화 메커니즘으로 c-Myc 전사인자와 간접적으로 연결되는 것
검증
- Solution Stability Test을 통해 추론된 상호작용 파라미터들의 안정성과 재현성 확인(Figure S9A 참고)
- 무작위 네트워크와 비교하여, 추론된 네트워크가 PC 데이터베이스와 더 많은 일관된 상호작용을 가지고 있음을 통계적으로 유의미하게 확인 (Figure S9B 참고)
남은 일부 모델 상호작용은 PC 상에서 두 단계 이상 떨어져 있거나, 연결 경로 자체가 존재하지 않는 경우
- 이러한 상호작용은 예측 성능을 위한 논리적 연결이거나, 아직 발견되지 않은 새로운 물리적 상호작용일 가능성 존재
PC는 다양한 생물학적 시스템의 데이터를 통합한 것이기에 연구에서 사용된 특정 시스템(예: 흑색종 세포주)과의 완벽한 일치는 어려움. CellBox 모델이 사전 지식 없이 순수하게 데이터 기반으로 네트워크를 구성했다는 점을 고려할 때, 문헌과 일치하는 부분이 있다는 것은 모델링 접근법의 유효성을 뒷받침하는 증거

Predictions of Unseen Perturbations Give Candidates for Drug Combinations

CellBox 모델은 소량의 실험 데이터를 사용하여 전체 시스템 내 노드와 상호작용의 동작을 합리적인 수준의 예측 정확도로 모델링하는 미분 방정식들의 매개변수를 효율적으로 학습할 수 있음을 확인
모델은 모든 단일 및 조합적 새로운 perturbation에 대한 세포 반응 예측 가능
- 실험을 통해 하나하나 검증하기보다 소수의 집중적인 실험만으로 약물 조합을 제안할 수 있도록 1,000개의 전체 모델을 이용해 약 110,000건에 달하는 in silico(컴퓨터 시뮬레이션 기반) perturbation에 대한 세포 반응을 정량적으로 예측. 각 단백질 노드에 대한 단일 perturbation에 대한 단일 자극의 다양한 용량(dosage) 실험과 모든 쌍 조합(pairwise combination) 실험 포함
- 각 perturbation 조건에 대해, 모든 모델의 예측값을 평균 내고 예측된 phenotypic 변화에 따라 자극들을 순위 매김(Figure 6A 참고)

Figure 6
- CellBox Provides Testable Predictions of Cell Phenotype under synthetic Perturbations
- (A): 네트워크 내 각 (인산화된)단백질 노드에 대해, CellBox를 사용하여 모든 단일 및 쌍 조합 억제를 시뮬레이션, 그에 따른 phenotypic 변화 예측. phenotypic effects는 전체 데이터셋을 기반으로 독립적으로 학습 된 1,000개의 모델의 예측값을 평균 낸 결과
- (B): 세포 주기 정지(cell-cycle arrest)에 대한 효과가 실험저긍로 검증된 두 가지 perturbation 조합(왼쪽 두 패널: c-Myc+MEK 억제제(MEKi), c-Myc+RAF 억제제(RAFi))과, 추가로 두 가지 in silico 조건(오른쪽 두 패널: GSK3p+MAPKp, MEKp+β-catenin)을 perturbation strenghts를 달리해 시뮬레이션하며 면밀히 분석
  - 네트워크 내 모든 (인산화된)단백질의 pairwise combinatorial perturbations에 대한 effects on cell-cycle arrest을 시뮬레이션, 이를 통해 효과적인 약물 후보 조합 제안. in silico inhibitory perturbation은 세포 증식 억제(antiproliferation) 효과(오른쪽 아래 빨간색) 또는 세포 증식 초진(pro-proliferation)효과를 초래할 수 있음(왼쪽 위 파란색)
  - 다른 표현형에 대한 모든 쌍 조합 억제 효과의 예측값은 Table S3 참고
이전 연구에서는 동일한 데이터셋과 동일한 미분방정식을 사용하되, 파리미터를 backpopagation 방법으로 최적화하여 모델을 구성
모델은 MEKi + c-Myc, RAFi + c-Myc 두 약물 조합이 G1 cell-cycle arrest를 증가시킬 것이라고 예측, 실험을 통해 검증됨
CellBox 모델이 두 약물 조합에 대해 유사한 효과 예측(Figure 6B, 패널 a, b 참고)
추가적인 치료 후보군 발굴 위해 모든 가능한 단일 및 쌍 조합 perturbation이 cell-cycle arrest에 미치는 효과를 면밀히 분석(Figure 6B 참고)
- Wnt, MAPK, ERK/MEK 경로에 속한 단백질들에 대한 perturbation이 강한 세포 증식 억제 효과(antiproliferative inhibition)를 보임: 모두 암 관련 경로로 잘 알려져있음. 이들 단백질에 대한 억제는 row 또는 column 방향으로 색이 균일하게 나타나는 특징을 보이며, 이는 강력한 single candidate를 의미
- 단일 억제뿐 아니라 상승효과(synergistic effect)를 보이는 약물 조합은 치료적으로 흥미로운 대상
- 직접적으로 세포 증식 촉진(pro-proliferation) 효과를 유발하는 억제들은 바람직하지 않지만, 간접적인 경로를 통해 세포 증식 억제(antiproliferation)를 유도 가능(좌상단 영역)
  - 예를 들어 단백질 노드는 상위 upstream 억제 또는 분해를 줄임으로써 간접적으로 활성화
CellBox 모델은 완전히 데이터 기반(data-driven)으로 학습되었기 때문에 de novo 예측은 기존 생물학적 지식이나 사전 정보 없이 system-specific으로 얻어진 것임을 의미

Discussion

목표: 동적 세포 반응을 예측하는 머신러닝-ODE 통합 모델 CellBox 개발
- 정확성과 mechanistic insight를 동시에 제공하기 위해, 머신러닝 방법과 동적 모델링 통합. 생물학적으로 해석 가능한 ODE 시스템에 딥러닝 최적화 알고리즘을 적용
특징
- 데이터 기반
  - 데이터 효율성과 in silico 스크리닝: 적은 수의 실험 데이터로 학습되어 다양한 조합 perturbation에 대한 세포 반응 시뮬레이션. 시뮬레이션된 반응을 원하는 표현형에 따라 순이를 매김으로 구체적인 치료 가설 도출 가능
- 선행 지식(prior knowledge) 불필요
- 높은 해석 가능성(interoretability)
  - 투명성(Transparency): 수학적으로 명확하게 정의된 모델을 사용하여 각 파라미터가 세포 내 구성 요소 간 상호작용을 정량적으로 나타냄
  - 추적 가능성(Tarceability): 특정 perturbation이 네트워크를 통해 시간에 따라 어떻게 영향을 미치는지 시뮬레이션을 통해 추적 가능
일반화: 자동 미분(AD) 및 확률적 경사 하강법(SGD) 활용 ⟶ 수학적 근사 없이 최적화 수행, 보다 다양한 형태의 세포 역학을 모델링
확장성
- 대규모 데이터 추가: 전사체(transcriptomic), 후성유전체(epigenomic), 대사체(metabolimic) 등
- cell bar-coding 기술을 통해 높은 처리량의 단일세포 데이터 획득 가능
  - 단일세포 기반 실험은 확장성 측면에서 특히 유리
기술적 과제: TensorFlow 기반 구현, dropout, mini-batching, GPU 부스팅 등 고급 기술 활용 가능. 다만 단일세포 데이터는 아직 sequencing depth가 얕고 노이즈가 많아 sparsity와 stochasticity를 극복하는 추가적인 계산적 접근 필요
도전 과제: 단일세포 데이터의 희소성/노이즈 극복, 실험 설계 최적화
향후 전망: 종양의 genetic background을 통합하여 개인화 치료 설계, 다른 생명과학 분야(발달생물학, 합성생물학 등)로 확장

Biology, System dynamics

paper

This post is licensed under CC BY 4.0 by the author.