[Part 3/3] 전사인자 활성 추론과 바이오마커 통합 가이드
DoRothEA, viper, SCENIC, ChEA3로 TF 활성을 추론하고, PPI/Pathway/TF 결과를 통합해 바이오마커 후보를 발굴하는 실전 워크플로.
📚 시리즈 안내 · 본 글은 3편 시리즈의 마지막입니다. Part 1 — PPI + Hub · Part 2 — GO + Pathway Enrichment · Part 3 — TF Activity + Biomarker 통합 (현재)
⬅️ 이전 글 Part 1 — PPI + Hub, Part 2 — GO + Pathway의 결과를 가져와 이번 글에서 통합합니다.
발현이 변한 유전자가 있다면, 누군가가 그 변화를 지시했습니다. 그 지시자(transcription factor)를 식별하면 — 단순히 "어떤 유전자가 바뀌었나"를 넘어서 — "왜 바뀌었나"의 메커니즘에 도달할 수 있습니다. 그리고 이 메커니즘이 바이오마커 발굴의 진짜 출발점입니다.
📌 TL;DR
- TF 분석은 (1) target gene enrichment와 (2) activity 추론 두 가지 — 둘 다 봐야 함
- TF 발현만 보면 안 됨. 많은 TF는 전사가 아니라 인산화/위치이동으로 조절됨
- DoRothEA confidence A/B/C만 사용 — 신뢰도 차이가 큼
- Motif 매칭은 "binding 가능성"이지 "actual binding"이 아님 — ATAC/ChIP과 교차
- Biomarker는 PPI Hub ∩ Pathway leading edge ∩ active TF target의 교집합에서 시작
1. TF 분석의 두 가지 질문
Q1. Enrichment 관점
"내 DEG 리스트가 특정 TF의 타깃 유전자 세트로 enrich 돼 있는가?" → ChEA3, Enrichr TF libraries, TRRUST
Q2. Activity 추론
"TF 자체의 발현이 아니라, 그 TF가 실제로 활성화됐는지를 타깃들의 발현 변화로 추론" → DoRothEA + viper, SCENIC (single-cell)
💡 왜 TF 발현만 보면 안 되나 — 많은 TF는 항상 단백질로 존재하고 인산화·핵 위치 이동·dimerization으로 활성이 조절됩니다. 대표 예: NF-κB는 평소 IκB에 잡혀 있다가 자극을 받으면 핵으로 이동, STAT은 인산화 후에야 dimer를 이뤄 활성, FOXO는 AKT 인산화에 의해 핵에서 빠짐. TF mRNA는 거의 변화가 없어도 활성은 크게 변할 수 있어 — 타깃의 발현 변화로 활성을 추론해야 합니다.
2. TF-target 데이터베이스 비교
| DB / 도구 | 소스 | 사이즈·특징 |
|---|---|---|
| DoRothEA | ChIP-seq + motif + literature + co-expression | ~470 TF, confidence A-E |
| TRRUST v2 | 문헌 수동 큐레이션 | ~800 human TF, activation/repression 라벨 |
| ChEA3 | ChIP-seq + ARCHS4 co-expression | integrative ranking 제공 |
| RegNetwork | TF–TF, TF–miRNA, miRNA–TF | 다층 조절 네트워크 |
| JASPAR / HOCOMOCO | PWM (binding motif) | 프로모터 스캔용 |
| ENCODE / Cistrome | ChIP-seq raw | 조직·세포주별 분석 원천 |
3. TF Activity 추론 — DoRothEA + viper 실전
library(dorothea)
library(decoupleR) # viper, ulm, mlm, wmean 등 통합 프레임
# Confidence A, B, C TF만 사용 (D, E는 신뢰도 낮음)
data(dorothea_hs, package="dorothea")
regulons <- dorothea_hs %>%
filter(confidence %in% c("A","B","C"))
# expr_mat: 유전자 × 샘플 정규화 발현 (voom/vst 권장)
tf_act <- decoupleR::run_viper(
mat = expr_mat,
network = regulons,
.source = "tf",
.target = "target",
.mor = "mor",
minsize = 5
)
# TF activity를 그룹 간 비교 (limma 또는 Wilcoxon)
# 결과: 그룹 간 활성 차이가 큰 TF 리스트 → 실험적 검증 우선순위
💡 해석 팁 — viper의 NES가 양수면 활성 증가, 음수면 억제를 의미합니다.
mor(mode of regulation, +1=activator, −1=repressor)가 정확하게 반영돼 있어 절대값보다 방향성이 더 의미 있는 경우가 많습니다.
4. Motif-based De Novo TF 추론
DEG의 프로모터 영역(±2kb from TSS)을 스캔하여 enriched motif를 찾는 접근:
- HOMER (
findMotifs.pl) — 고전, known + de novo 모두 - MEME Suite (AME, FIMO, SEA) — 학술 표준
- RcisTarget — SCENIC의 motif enrichment 엔진
- PscanChIP, i-cisTarget — 웹 기반
⚠️ Motif 분석의 함정 — Motif 매칭은 "binding 가능성"이지 실제 binding이 아닙니다. 크로마틴 상태(open/closed)에 따라 같은 motif도 binding 여부가 달라집니다. 가능하면 다음으로 교차 확인:
- ATAC-seq / DNase-seq — 크로마틴 접근성 확인
- ChIP-seq — 동일 조직·세포에서 실제 binding 확인 (ENCODE, Cistrome)
- Conservation — PhastCons, GERP로 진화적 보존 motif에 우선 가중
5. Single-Cell TF 분석 — SCENIC
scRNA-seq 데이터에서 TF-target regulon을 세포 단위로 평가하는 표준 워크플로:
- GRNBoost2 / GENIE3 — co-expression 기반 regulon 초안 (TF별 candidate target)
- RcisTarget — motif로 필터링하여 direct target만 유지 (간접 co-expression 제거)
- AUCell — 세포별 regulon activity score 계산
- UMAP에 regulon activity 오버레이, 세포 타입·상태별 비교
💡 scRNA-seq 특화 주의 — drop-out이 많아 sparse한 데이터에서는 GRN 재구성이 불안정합니다.
pySCENIC사용 시 imputation(MAGIC, SAVER) 전에 분석할지 후에 분석할지를 신중히 결정해야 하며, 일반적으로는 imputation 없이 raw counts로 시작해 비교하는 것이 안전합니다.
6. 통합 분석 — Biomarker 후보 발굴 워크플로
RNA-seq QC + 정규화
↓
DEG (DESeq2/edgeR/limma)
↓
PPI 구축 (STRING) + GO/Pathway (clusterProfiler, fgsea) + TF activity (DoRothEA+viper)
↓ ↓ ↓
└───────── Biomarker 후보 intersect ─────────────────────────────────┘
↓
Cox/ROC 모델링
↓
독립 cohort 검증 (TCGA, GEO)
7. Biomarker 후보 선정 기준
| 기준 | 도구 | 컷오프 예시 |
|---|---|---|
| 차등 발현 | DESeq2 / limma | |log2FC| > 1, FDR < 0.05 |
| 네트워크 중심성 | cytoHubba (MCC) — Part 1 | 상위 10% |
| 기능 관련성 | GO / Pathway — Part 2 | 질병 관련 term에 포함 |
| 조절 증거 | TF analysis — Part 3 | active TF의 direct target |
| 예후 연관 | Cox regression | HR p < 0.05, 독립 cohort 검증 |
| 임상 적용성 | - | 혈액/조직 측정 가능, 재현성 |
8. 검증 단계
🧬 In silico
- TCGA, GEO, ArrayExpress에서 독립 코호트 검증
- Kaplan-Meier plotter, GEPIA2 활용
- Meta-analysis (MetaDE, ComBat)
- Cell line 데이터(CCLE, DepMap)로 mechanistic 보강
🔬 In vitro / in vivo
- qRT-PCR, Western blot (후보 ≤ 20)
- siRNA / CRISPR KO phenotype
- 환자 샘플 IHC, ELISA
- 혈장 ddPCR / NanoString (혈액 바이오마커 후보)
9. Reporting 표준
💡 논문 작성 시 체크리스트
- 모든 DB 버전 명시 (STRING v12, MSigDB v2023.2, DoRothEA 등)
- Background (universe) 정의 (Part 2 참고)
- 다중검정 보정 방법 (BH / Bonferroni)
- FDR cutoff 및 효과크기 cutoff 모두 보고
- Leading edge / 핵심 유전자 목록 supplementary
- REMARK / TRIPOD 가이드라인 준수 (바이오마커 논문 표준)
- Pre-registration 또는 OSF 등록 (재현성 강화)
10. 권장 참고자료
도구 매뉴얼·튜토리얼
- clusterProfiler book:
yulab-smu.top/biomedical-knowledge-mining-book - Bioconductor workflows:
bioconductor.org/packages/release/workflows - Cytoscape tutorials:
cytoscape.org/tutorials - SCENIC protocol: Aibar et al., Nat Methods 2017
- decoupleR vignette:
saezlab.github.io/decoupleR
리뷰·원논문
- Subramanian et al., PNAS 2005 — GSEA 원논문
- Khatri et al., PLoS Comput Biol 2012 — pathway analysis 방법론 종합 리뷰
- Garcia-Alonso et al., Genome Res 2019 — DoRothEA TF activity 벤치마크
- Keenan et al., Cell Syst 2019 — ChEA3 원논문
- Chin et al., BMC Syst Biol 2014 — cytoHubba (MCC 알고리즘)
🎯 시리즈 마무리 — 3편을 관통하는 메시지
좋은 바이오마커 발굴은 **"하나의 분석에서 나온 단일 신호"가 아니라 "여러 관점이 같은 유전자를 가리키는 수렴"**에서 옵니다.
- Part 1: 단백질 상호작용망에서 구조적 중심 찾기
- Part 2: 기능 카테고리·신호 경로에서 일관된 신호 찾기
- Part 3: 조절자(TF) 수준에서 인과 메커니즘 추론 + 모든 결과 통합
이 세 가지가 같은 유전자 또는 같은 모듈을 가리킬 때, 비로소 실험·임상 검증에 투자할 만한 후보가 됩니다.
📚 시리즈 처음부터: Part 1 — PPI + Hub · Part 2 — GO + Pathway