바이오마커

[Part 3/3] 전사인자 활성 추론과 바이오마커 통합 가이드

DoRothEA, viper, SCENIC, ChEA3로 TF 활성을 추론하고, PPI/Pathway/TF 결과를 통합해 바이오마커 후보를 발굴하는 실전 워크플로.

·10 min read
#전사인자#TF activity#DoRothEA#viper#SCENIC#ChEA3#biomarker#multi-omics

📚 시리즈 안내 · 본 글은 3편 시리즈의 마지막입니다. Part 1 — PPI + Hub · Part 2 — GO + Pathway Enrichment · Part 3 — TF Activity + Biomarker 통합 (현재)

⬅️ 이전 글 Part 1 — PPI + Hub, Part 2 — GO + Pathway의 결과를 가져와 이번 글에서 통합합니다.

발현이 변한 유전자가 있다면, 누군가가 그 변화를 지시했습니다. 그 지시자(transcription factor)를 식별하면 — 단순히 "어떤 유전자가 바뀌었나"를 넘어서 — " 바뀌었나"의 메커니즘에 도달할 수 있습니다. 그리고 이 메커니즘이 바이오마커 발굴의 진짜 출발점입니다.

📌 TL;DR

  • TF 분석은 (1) target gene enrichment(2) activity 추론 두 가지 — 둘 다 봐야 함
  • TF 발현만 보면 안 됨. 많은 TF는 전사가 아니라 인산화/위치이동으로 조절됨
  • DoRothEA confidence A/B/C만 사용 — 신뢰도 차이가 큼
  • Motif 매칭은 "binding 가능성"이지 "actual binding"이 아님 — ATAC/ChIP과 교차
  • Biomarker는 PPI Hub ∩ Pathway leading edge ∩ active TF target의 교집합에서 시작

1. TF 분석의 두 가지 질문

Q1. Enrichment 관점

"내 DEG 리스트가 특정 TF의 타깃 유전자 세트로 enrich 돼 있는가?" → ChEA3, Enrichr TF libraries, TRRUST

Q2. Activity 추론

"TF 자체의 발현이 아니라, 그 TF가 실제로 활성화됐는지를 타깃들의 발현 변화로 추론" → DoRothEA + viper, SCENIC (single-cell)

💡 왜 TF 발현만 보면 안 되나 — 많은 TF는 항상 단백질로 존재하고 인산화·핵 위치 이동·dimerization으로 활성이 조절됩니다. 대표 예: NF-κB는 평소 IκB에 잡혀 있다가 자극을 받으면 핵으로 이동, STAT은 인산화 후에야 dimer를 이뤄 활성, FOXO는 AKT 인산화에 의해 핵에서 빠짐. TF mRNA는 거의 변화가 없어도 활성은 크게 변할 수 있어 — 타깃의 발현 변화로 활성을 추론해야 합니다.

2. TF-target 데이터베이스 비교

DB / 도구소스사이즈·특징
DoRothEAChIP-seq + motif + literature + co-expression~470 TF, confidence A-E
TRRUST v2문헌 수동 큐레이션~800 human TF, activation/repression 라벨
ChEA3ChIP-seq + ARCHS4 co-expressionintegrative ranking 제공
RegNetworkTF–TF, TF–miRNA, miRNA–TF다층 조절 네트워크
JASPAR / HOCOMOCOPWM (binding motif)프로모터 스캔용
ENCODE / CistromeChIP-seq raw조직·세포주별 분석 원천

3. TF Activity 추론 — DoRothEA + viper 실전

library(dorothea)
library(decoupleR)   # viper, ulm, mlm, wmean 등 통합 프레임

# Confidence A, B, C TF만 사용 (D, E는 신뢰도 낮음)
data(dorothea_hs, package="dorothea")
regulons <- dorothea_hs %>%
  filter(confidence %in% c("A","B","C"))

# expr_mat: 유전자 × 샘플 정규화 발현 (voom/vst 권장)
tf_act <- decoupleR::run_viper(
  mat      = expr_mat,
  network  = regulons,
  .source  = "tf",
  .target  = "target",
  .mor     = "mor",
  minsize  = 5
)

# TF activity를 그룹 간 비교 (limma 또는 Wilcoxon)
# 결과: 그룹 간 활성 차이가 큰 TF 리스트 → 실험적 검증 우선순위

💡 해석 팁 — viper의 NES가 양수면 활성 증가, 음수면 억제를 의미합니다. mor(mode of regulation, +1=activator, −1=repressor)가 정확하게 반영돼 있어 절대값보다 방향성이 더 의미 있는 경우가 많습니다.

4. Motif-based De Novo TF 추론

DEG의 프로모터 영역(±2kb from TSS)을 스캔하여 enriched motif를 찾는 접근:

  • HOMER (findMotifs.pl) — 고전, known + de novo 모두
  • MEME Suite (AME, FIMO, SEA) — 학술 표준
  • RcisTarget — SCENIC의 motif enrichment 엔진
  • PscanChIP, i-cisTarget — 웹 기반

⚠️ Motif 분석의 함정 — Motif 매칭은 "binding 가능성"이지 실제 binding이 아닙니다. 크로마틴 상태(open/closed)에 따라 같은 motif도 binding 여부가 달라집니다. 가능하면 다음으로 교차 확인:

  • ATAC-seq / DNase-seq — 크로마틴 접근성 확인
  • ChIP-seq — 동일 조직·세포에서 실제 binding 확인 (ENCODE, Cistrome)
  • Conservation — PhastCons, GERP로 진화적 보존 motif에 우선 가중

5. Single-Cell TF 분석 — SCENIC

scRNA-seq 데이터에서 TF-target regulon을 세포 단위로 평가하는 표준 워크플로:

  1. GRNBoost2 / GENIE3 — co-expression 기반 regulon 초안 (TF별 candidate target)
  2. RcisTarget — motif로 필터링하여 direct target만 유지 (간접 co-expression 제거)
  3. AUCell — 세포별 regulon activity score 계산
  4. UMAP에 regulon activity 오버레이, 세포 타입·상태별 비교

💡 scRNA-seq 특화 주의 — drop-out이 많아 sparse한 데이터에서는 GRN 재구성이 불안정합니다. pySCENIC 사용 시 imputation(MAGIC, SAVER) 전에 분석할지 후에 분석할지를 신중히 결정해야 하며, 일반적으로는 imputation 없이 raw counts로 시작해 비교하는 것이 안전합니다.

6. 통합 분석 — Biomarker 후보 발굴 워크플로

RNA-seq QC + 정규화
       ↓
DEG (DESeq2/edgeR/limma)
       ↓
PPI 구축 (STRING)  +  GO/Pathway (clusterProfiler, fgsea)  +  TF activity (DoRothEA+viper)
       ↓                          ↓                                       ↓
       └───────── Biomarker 후보 intersect ─────────────────────────────────┘
                              ↓
                  Cox/ROC 모델링
                              ↓
                  독립 cohort 검증 (TCGA, GEO)

7. Biomarker 후보 선정 기준

기준도구컷오프 예시
차등 발현DESeq2 / limma|log2FC| > 1, FDR < 0.05
네트워크 중심성cytoHubba (MCC) — Part 1상위 10%
기능 관련성GO / Pathway — Part 2질병 관련 term에 포함
조절 증거TF analysis — Part 3active TF의 direct target
예후 연관Cox regressionHR p < 0.05, 독립 cohort 검증
임상 적용성-혈액/조직 측정 가능, 재현성

8. 검증 단계

🧬 In silico

  • TCGA, GEO, ArrayExpress에서 독립 코호트 검증
  • Kaplan-Meier plotter, GEPIA2 활용
  • Meta-analysis (MetaDE, ComBat)
  • Cell line 데이터(CCLE, DepMap)로 mechanistic 보강

🔬 In vitro / in vivo

  • qRT-PCR, Western blot (후보 ≤ 20)
  • siRNA / CRISPR KO phenotype
  • 환자 샘플 IHC, ELISA
  • 혈장 ddPCR / NanoString (혈액 바이오마커 후보)

9. Reporting 표준

💡 논문 작성 시 체크리스트

  • 모든 DB 버전 명시 (STRING v12, MSigDB v2023.2, DoRothEA 등)
  • Background (universe) 정의 (Part 2 참고)
  • 다중검정 보정 방법 (BH / Bonferroni)
  • FDR cutoff 및 효과크기 cutoff 모두 보고
  • Leading edge / 핵심 유전자 목록 supplementary
  • REMARK / TRIPOD 가이드라인 준수 (바이오마커 논문 표준)
  • Pre-registration 또는 OSF 등록 (재현성 강화)

10. 권장 참고자료

도구 매뉴얼·튜토리얼

  • clusterProfiler book: yulab-smu.top/biomedical-knowledge-mining-book
  • Bioconductor workflows: bioconductor.org/packages/release/workflows
  • Cytoscape tutorials: cytoscape.org/tutorials
  • SCENIC protocol: Aibar et al., Nat Methods 2017
  • decoupleR vignette: saezlab.github.io/decoupleR

리뷰·원논문

  • Subramanian et al., PNAS 2005 — GSEA 원논문
  • Khatri et al., PLoS Comput Biol 2012 — pathway analysis 방법론 종합 리뷰
  • Garcia-Alonso et al., Genome Res 2019 — DoRothEA TF activity 벤치마크
  • Keenan et al., Cell Syst 2019 — ChEA3 원논문
  • Chin et al., BMC Syst Biol 2014 — cytoHubba (MCC 알고리즘)

🎯 시리즈 마무리 — 3편을 관통하는 메시지

좋은 바이오마커 발굴은 **"하나의 분석에서 나온 단일 신호"가 아니라 "여러 관점이 같은 유전자를 가리키는 수렴"**에서 옵니다.

  • Part 1: 단백질 상호작용망에서 구조적 중심 찾기
  • Part 2: 기능 카테고리·신호 경로에서 일관된 신호 찾기
  • Part 3: 조절자(TF) 수준에서 인과 메커니즘 추론 + 모든 결과 통합

이 세 가지가 같은 유전자 또는 같은 모듈을 가리킬 때, 비로소 실험·임상 검증에 투자할 만한 후보가 됩니다.

📚 시리즈 처음부터: Part 1 — PPI + Hub · Part 2 — GO + Pathway

관련 글