[Part 3/3] 전사인자 활성 추론과 바이오마커 통합 가이드

📚 시리즈 안내 · 본 글은 3편 시리즈의 마지막입니다. Part 1 — PPI + Hub · Part 2 — GO + Pathway Enrichment · Part 3 — TF Activity + Biomarker 통합 (현재)

⬅️ 이전 글 Part 1 — PPI + Hub, Part 2 — GO + Pathway의 결과를 가져와 이번 글에서 통합합니다.

발현이 변한 유전자가 있다면, 누군가가 그 변화를 지시했습니다. 그 지시자(transcription factor)를 식별하면 — 단순히 "어떤 유전자가 바뀌었나"를 넘어서 — "왜 바뀌었나"의 메커니즘에 도달할 수 있습니다. 그리고 이 메커니즘이 바이오마커 발굴의 진짜 출발점입니다.

📌 TL;DR

TF 분석은 (1) target gene enrichment와 (2) activity 추론 두 가지 — 둘 다 봐야 함
TF 발현만 보면 안 됨. 많은 TF는 전사가 아니라 인산화/위치이동으로 조절됨
DoRothEA confidence A/B/C만 사용 — 신뢰도 차이가 큼
Motif 매칭은 "binding 가능성"이지 "actual binding"이 아님 — ATAC/ChIP과 교차
Biomarker는 PPI Hub ∩ Pathway leading edge ∩ active TF target의 교집합에서 시작

1. TF 분석의 두 가지 질문

Q1. Enrichment 관점

"내 DEG 리스트가 특정 TF의 타깃 유전자 세트로 enrich 돼 있는가?" → ChEA3, Enrichr TF libraries, TRRUST

Q2. Activity 추론

"TF 자체의 발현이 아니라, 그 TF가 실제로 활성화됐는지를 타깃들의 발현 변화로 추론" → DoRothEA + viper, SCENIC (single-cell)

💡 왜 TF 발현만 보면 안 되나 — 많은 TF는 항상 단백질로 존재하고 인산화·핵 위치 이동·dimerization으로 활성이 조절됩니다. 대표 예: NF-κB는 평소 IκB에 잡혀 있다가 자극을 받으면 핵으로 이동, STAT은 인산화 후에야 dimer를 이뤄 활성, FOXO는 AKT 인산화에 의해 핵에서 빠짐. TF mRNA는 거의 변화가 없어도 활성은 크게 변할 수 있어 — 타깃의 발현 변화로 활성을 추론해야 합니다.

2. TF-target 데이터베이스 비교

DB / 도구	소스	사이즈·특징
DoRothEA	ChIP-seq + motif + literature + co-expression	~470 TF, confidence A-E
TRRUST v2	문헌 수동 큐레이션	~800 human TF, activation/repression 라벨
ChEA3	ChIP-seq + ARCHS4 co-expression	integrative ranking 제공
RegNetwork	TF–TF, TF–miRNA, miRNA–TF	다층 조절 네트워크
JASPAR / HOCOMOCO	PWM (binding motif)	프로모터 스캔용
ENCODE / Cistrome	ChIP-seq raw	조직·세포주별 분석 원천

3. TF Activity 추론 — DoRothEA + viper 실전

library(dorothea)
library(decoupleR)   # viper, ulm, mlm, wmean 등 통합 프레임

# Confidence A, B, C TF만 사용 (D, E는 신뢰도 낮음)
data(dorothea_hs, package="dorothea")
regulons <- dorothea_hs %>%
  filter(confidence %in% c("A","B","C"))

# expr_mat: 유전자 × 샘플 정규화 발현 (voom/vst 권장)
tf_act <- decoupleR::run_viper(
  mat      = expr_mat,
  network  = regulons,
  .source  = "tf",
  .target  = "target",
  .mor     = "mor",
  minsize  = 5
)

# TF activity를 그룹 간 비교 (limma 또는 Wilcoxon)
# 결과: 그룹 간 활성 차이가 큰 TF 리스트 → 실험적 검증 우선순위

💡 해석 팁 — viper의 NES가 양수면 활성 증가, 음수면 억제를 의미합니다. mor(mode of regulation, +1=activator, −1=repressor)가 정확하게 반영돼 있어 절대값보다 방향성이 더 의미 있는 경우가 많습니다.

4. Motif-based De Novo TF 추론

DEG의 프로모터 영역(±2kb from TSS)을 스캔하여 enriched motif를 찾는 접근:

HOMER (findMotifs.pl) — 고전, known + de novo 모두
MEME Suite (AME, FIMO, SEA) — 학술 표준
RcisTarget — SCENIC의 motif enrichment 엔진
PscanChIP, i-cisTarget — 웹 기반

⚠️ Motif 분석의 함정 — Motif 매칭은 "binding 가능성"이지 실제 binding이 아닙니다. 크로마틴 상태(open/closed)에 따라 같은 motif도 binding 여부가 달라집니다. 가능하면 다음으로 교차 확인:

ATAC-seq / DNase-seq — 크로마틴 접근성 확인

ChIP-seq — 동일 조직·세포에서 실제 binding 확인 (ENCODE, Cistrome)

Conservation — PhastCons, GERP로 진화적 보존 motif에 우선 가중

5. Single-Cell TF 분석 — SCENIC

scRNA-seq 데이터에서 TF-target regulon을 세포 단위로 평가하는 표준 워크플로:

GRNBoost2 / GENIE3 — co-expression 기반 regulon 초안 (TF별 candidate target)
RcisTarget — motif로 필터링하여 direct target만 유지 (간접 co-expression 제거)
AUCell — 세포별 regulon activity score 계산
UMAP에 regulon activity 오버레이, 세포 타입·상태별 비교

💡 scRNA-seq 특화 주의 — drop-out이 많아 sparse한 데이터에서는 GRN 재구성이 불안정합니다. pySCENIC 사용 시 imputation(MAGIC, SAVER) 전에 분석할지 후에 분석할지를 신중히 결정해야 하며, 일반적으로는 imputation 없이 raw counts로 시작해 비교하는 것이 안전합니다.

6. 통합 분석 — Biomarker 후보 발굴 워크플로

RNA-seq QC + 정규화
       ↓
DEG (DESeq2/edgeR/limma)
       ↓
PPI 구축 (STRING)  +  GO/Pathway (clusterProfiler, fgsea)  +  TF activity (DoRothEA+viper)
       ↓                          ↓                                       ↓
       └───────── Biomarker 후보 intersect ─────────────────────────────────┘
                              ↓
                  Cox/ROC 모델링
                              ↓
                  독립 cohort 검증 (TCGA, GEO)

7. Biomarker 후보 선정 기준

기준	도구	컷오프 예시
차등 발현	DESeq2 / limma	\|log2FC\| > 1, FDR < 0.05
네트워크 중심성	cytoHubba (MCC) — Part 1	상위 10%
기능 관련성	GO / Pathway — Part 2	질병 관련 term에 포함
조절 증거	TF analysis — Part 3	active TF의 direct target
예후 연관	Cox regression	HR p < 0.05, 독립 cohort 검증
임상 적용성	-	혈액/조직 측정 가능, 재현성

8. 검증 단계

🧬 In silico

TCGA, GEO, ArrayExpress에서 독립 코호트 검증
Kaplan-Meier plotter, GEPIA2 활용
Meta-analysis (MetaDE, ComBat)
Cell line 데이터(CCLE, DepMap)로 mechanistic 보강

🔬 In vitro / in vivo

qRT-PCR, Western blot (후보 ≤ 20)
siRNA / CRISPR KO phenotype
환자 샘플 IHC, ELISA
혈장 ddPCR / NanoString (혈액 바이오마커 후보)

9. Reporting 표준

💡 논문 작성 시 체크리스트

모든 DB 버전 명시 (STRING v12, MSigDB v2023.2, DoRothEA 등)

Background (universe) 정의 (Part 2 참고)

다중검정 보정 방법 (BH / Bonferroni)

FDR cutoff 및 효과크기 cutoff 모두 보고

Leading edge / 핵심 유전자 목록 supplementary

REMARK / TRIPOD 가이드라인 준수 (바이오마커 논문 표준)

Pre-registration 또는 OSF 등록 (재현성 강화)

10. 권장 참고자료

도구 매뉴얼·튜토리얼

clusterProfiler book: yulab-smu.top/biomedical-knowledge-mining-book
Bioconductor workflows: bioconductor.org/packages/release/workflows
Cytoscape tutorials: cytoscape.org/tutorials
SCENIC protocol: Aibar et al., Nat Methods 2017
decoupleR vignette: saezlab.github.io/decoupleR

리뷰·원논문

Subramanian et al., PNAS 2005 — GSEA 원논문
Khatri et al., PLoS Comput Biol 2012 — pathway analysis 방법론 종합 리뷰
Garcia-Alonso et al., Genome Res 2019 — DoRothEA TF activity 벤치마크
Keenan et al., Cell Syst 2019 — ChEA3 원논문
Chin et al., BMC Syst Biol 2014 — cytoHubba (MCC 알고리즘)

🎯 시리즈 마무리 — 3편을 관통하는 메시지

좋은 바이오마커 발굴은 **"하나의 분석에서 나온 단일 신호"가 아니라 "여러 관점이 같은 유전자를 가리키는 수렴"**에서 옵니다.

Part 1: 단백질 상호작용망에서 구조적 중심 찾기
Part 2: 기능 카테고리·신호 경로에서 일관된 신호 찾기
Part 3: 조절자(TF) 수준에서 인과 메커니즘 추론 + 모든 결과 통합

이 세 가지가 같은 유전자 또는 같은 모듈을 가리킬 때, 비로소 실험·임상 검증에 투자할 만한 후보가 됩니다.

📚 시리즈 처음부터: Part 1 — PPI + Hub · Part 2 — GO + Pathway