경로 분석(Pathway Analysis) 완전 가이드
ORA, GSEA, 토폴로지 기반 분석까지. 경로 분석의 방법론과 데이터베이스를 체계적으로 정리했다.
오믹스 실험에서 차등 발현 유전자 목록을 얻었다면, 그다음 단계는 거의 언제나 **경로 분석(Pathway Analysis)**이다. 개별 유전자의 나열이 아니라, 어떤 생물학적 경로나 기능이 전체적으로 영향을 받았는지를 파악하는 것이 목적이다. 하지만 경로 분석 방법이 여러 가지라서, 어떤 걸 써야 하는지 혼란스러운 경우가 많다.
ORA: 가장 기본적인 방법
**ORA(Over-Representation Analysis)**는 경로 분석의 출발점이다. 차등 발현 유전자 목록에서 특정 경로에 속하는 유전자가 기대보다 많은지를 Fisher's exact test나 hypergeometric test로 검정한다.
장점은 직관적이고 계산이 빠르다는 것. 단점은 유전자를 "유의하다/아니다"의 이분법으로 나눠야 해서 정보 손실이 생긴다는 것이다. 어떤 threshold를 쓰느냐에 따라 결과가 바뀔 수 있다.
GSEA: 순위 기반 접근
**GSEA(Gene Set Enrichment Analysis)**는 이 한계를 극복한다. 유전자를 자르지 않고, 전체 유전자를 통계량(fold change, t-statistic 등)으로 순위를 매긴 뒤, 특정 유전자 세트가 순위 목록의 상위 또는 하위에 편중되어 있는지를 검정한다.
GSEA의 강점은 약하지만 일관된 변화를 포착할 수 있다는 것이다. 개별 유전자는 유의하지 않더라도, 같은 경로에 속하는 유전자들이 전체적으로 같은 방향으로 변했다면 그 경로는 유의하게 나올 수 있다.
R에서는 fgsea 패키지가 빠르고 편하다. clusterProfiler의 GSEA 기능도 많이 쓰인다.
경로 데이터베이스
경로 분석의 결과는 어떤 데이터베이스를 쓰느냐에 따라 달라진다:
-
GO(Gene Ontology): 가장 포괄적. Biological Process, Molecular Function, Cellular Component 세 카테고리.
-
KEGG: 대사 경로와 신호 전달 경로. 시각화가 좋지만, 업데이트 빈도와 라이선스 문제가 있다.
-
Reactome: 사람이 직접 큐레이션한 고품질 경로 데이터베이스. 계층적 구조가 잘 되어 있다.
-
WikiPathways: 커뮤니티 기반으로 운영되며, 특정 질병이나 분야에 특화된 경로가 많다.
-
MSigDB: GSEA와 함께 쓰이는 유전자 세트 컬렉션. Hallmark gene sets가 특히 유용하다.
토폴로지 기반 방법
ORA와 GSEA는 경로의 **구조(topology)**를 고려하지 않는다. 경로 내에서 유전자의 위치, 상호작용 유형(활성/억제), 신호 흐름 방향 등을 반영하는 방법이 토폴로지 기반 경로 분석이다. SPIA, Clipper 등이 이 범주에 속한다.
토폴로지 기반 방법은 더 정교한 결과를 줄 수 있지만, 경로 구조 정보의 완전성에 의존하기 때문에 모든 상황에서 더 좋다고는 할 수 없다.
실전 권장 워크플로우
-
ORA로 빠르게 전체 그림을 파악한다.
-
GSEA로 ORA에서 놓쳤을 수 있는 약한 신호를 확인한다.
-
GO, KEGG, Reactome을 모두 시도하되, 결과를 비교해본다.
-
결과 해석 시 유전자 세트 크기, 배경 유전자 설정, 다중 검정 보정에 주의한다.
-
clusterProfiler의 dotplot, enrichment map, cnetplot으로 시각화한다.
경로 분석은 결국 "유전자 목록에 생물학적 의미를 부여하는" 과정이다. 방법론도 중요하지만, 결과를 비판적으로 해석하는 눈이 더 중요하다. enrichment 결과를 그대로 받아들이지 말고, 해당 경로에 실제로 어떤 유전자가 기여하고 있는지 반드시 확인하자.
관련 읽을거리
- 💊 비타민D 부족이 만성피로의 원인? 혈액검사로 확인하세요 — Genobalance
- 🧠 뇌의 가소성: 우리 뇌는 왜 평생 변화하는가 — K-Brain Map
- 💻 AI 기술 동향: 핫 스타트업부터 윤리적 논쟁까지 — BRIC