경로 분석(Pathway Analysis) 완전 가이드

오믹스 실험에서 차등 발현 유전자 목록을 얻었다면, 그다음 단계는 거의 언제나 **경로 분석(Pathway Analysis)**이다. 개별 유전자의 나열이 아니라, 어떤 생물학적 경로나 기능이 전체적으로 영향을 받았는지를 파악하는 것이 목적이다. 하지만 경로 분석 방법이 여러 가지라서, 어떤 걸 써야 하는지 혼란스러운 경우가 많다.

ORA: 가장 기본적인 방법

Biological pathway analysis and visualization

Metabolic and signaling pathway network diagram

**ORA(Over-Representation Analysis)**는 경로 분석의 출발점이다. 차등 발현 유전자 목록에서 특정 경로에 속하는 유전자가 기대보다 많은지를 Fisher's exact test나 hypergeometric test로 검정한다.

장점은 직관적이고 계산이 빠르다는 것. 단점은 유전자를 "유의하다/아니다"의 이분법으로 나눠야 해서 정보 손실이 생긴다는 것이다. 어떤 threshold를 쓰느냐에 따라 결과가 바뀔 수 있다.

GSEA: 순위 기반 접근

**GSEA(Gene Set Enrichment Analysis)**는 이 한계를 극복한다. 유전자를 자르지 않고, 전체 유전자를 통계량(fold change, t-statistic 등)으로 순위를 매긴 뒤, 특정 유전자 세트가 순위 목록의 상위 또는 하위에 편중되어 있는지를 검정한다.

GSEA의 강점은 약하지만 일관된 변화를 포착할 수 있다는 것이다. 개별 유전자는 유의하지 않더라도, 같은 경로에 속하는 유전자들이 전체적으로 같은 방향으로 변했다면 그 경로는 유의하게 나올 수 있다.

R에서는 fgsea 패키지가 빠르고 편하다. clusterProfiler의 GSEA 기능도 많이 쓰인다.

경로 데이터베이스

경로 분석의 결과는 어떤 데이터베이스를 쓰느냐에 따라 달라진다:

GO(Gene Ontology): 가장 포괄적. Biological Process, Molecular Function, Cellular Component 세 카테고리.
KEGG: 대사 경로와 신호 전달 경로. 시각화가 좋지만, 업데이트 빈도와 라이선스 문제가 있다.
Reactome: 사람이 직접 큐레이션한 고품질 경로 데이터베이스. 계층적 구조가 잘 되어 있다.
WikiPathways: 커뮤니티 기반으로 운영되며, 특정 질병이나 분야에 특화된 경로가 많다.
MSigDB: GSEA와 함께 쓰이는 유전자 세트 컬렉션. Hallmark gene sets가 특히 유용하다.

토폴로지 기반 방법

ORA와 GSEA는 경로의 **구조(topology)**를 고려하지 않는다. 경로 내에서 유전자의 위치, 상호작용 유형(활성/억제), 신호 흐름 방향 등을 반영하는 방법이 토폴로지 기반 경로 분석이다. SPIA, Clipper 등이 이 범주에 속한다.

토폴로지 기반 방법은 더 정교한 결과를 줄 수 있지만, 경로 구조 정보의 완전성에 의존하기 때문에 모든 상황에서 더 좋다고는 할 수 없다.

실전 권장 워크플로우

ORA로 빠르게 전체 그림을 파악한다.
GSEA로 ORA에서 놓쳤을 수 있는 약한 신호를 확인한다.
GO, KEGG, Reactome을 모두 시도하되, 결과를 비교해본다.
결과 해석 시 유전자 세트 크기, 배경 유전자 설정, 다중 검정 보정에 주의한다.
clusterProfiler의 dotplot, enrichment map, cnetplot으로 시각화한다.

경로 분석은 결국 "유전자 목록에 생물학적 의미를 부여하는" 과정이다. 방법론도 중요하지만, 결과를 비판적으로 해석하는 눈이 더 중요하다. enrichment 결과를 그대로 받아들이지 말고, 해당 경로에 실제로 어떤 유전자가 기여하고 있는지 반드시 확인하자.

📚 참고 데이터베이스: PubMed | Nature

경로 분석(Pathway Analysis) 완전 가이드

ORA: 가장 기본적인 방법

GSEA: 순위 기반 접근

경로 데이터베이스

토폴로지 기반 방법

실전 권장 워크플로우

관련 읽을거리

관련 글

바이오인포매틱스 입문자를 위한 R vs Python 선택 가이드 (2026년 기준)

Top 10 Bioinformatics Databases Every Researcher Should Know

생물정보학 도구 비교: R vs Python, 뭘 배워야 할까