바이오인포매틱스

경로 분석(Pathway Analysis) 완전 가이드

ORA, GSEA, 토폴로지 기반 분석까지. 경로 분석의 방법론과 데이터베이스를 체계적으로 정리했다.

·6 min read
#pathway analysis#gene set enrichment#KEGG#GO analysis#bioinformatics

오믹스 실험에서 차등 발현 유전자 목록을 얻었다면, 그다음 단계는 거의 언제나 **경로 분석(Pathway Analysis)**이다. 개별 유전자의 나열이 아니라, 어떤 생물학적 경로나 기능이 전체적으로 영향을 받았는지를 파악하는 것이 목적이다. 하지만 경로 분석 방법이 여러 가지라서, 어떤 걸 써야 하는지 혼란스러운 경우가 많다.

ORA: 가장 기본적인 방법

Biological pathway analysis and visualization

Metabolic and signaling pathway network diagram

**ORA(Over-Representation Analysis)**는 경로 분석의 출발점이다. 차등 발현 유전자 목록에서 특정 경로에 속하는 유전자가 기대보다 많은지를 Fisher's exact test나 hypergeometric test로 검정한다.

장점은 직관적이고 계산이 빠르다는 것. 단점은 유전자를 "유의하다/아니다"의 이분법으로 나눠야 해서 정보 손실이 생긴다는 것이다. 어떤 threshold를 쓰느냐에 따라 결과가 바뀔 수 있다.

GSEA: 순위 기반 접근

**GSEA(Gene Set Enrichment Analysis)**는 이 한계를 극복한다. 유전자를 자르지 않고, 전체 유전자를 통계량(fold change, t-statistic 등)으로 순위를 매긴 뒤, 특정 유전자 세트가 순위 목록의 상위 또는 하위에 편중되어 있는지를 검정한다.

GSEA의 강점은 약하지만 일관된 변화를 포착할 수 있다는 것이다. 개별 유전자는 유의하지 않더라도, 같은 경로에 속하는 유전자들이 전체적으로 같은 방향으로 변했다면 그 경로는 유의하게 나올 수 있다.

R에서는 fgsea 패키지가 빠르고 편하다. clusterProfiler의 GSEA 기능도 많이 쓰인다.

경로 데이터베이스

경로 분석의 결과는 어떤 데이터베이스를 쓰느냐에 따라 달라진다:

  • GO(Gene Ontology): 가장 포괄적. Biological Process, Molecular Function, Cellular Component 세 카테고리.

  • KEGG: 대사 경로와 신호 전달 경로. 시각화가 좋지만, 업데이트 빈도와 라이선스 문제가 있다.

  • Reactome: 사람이 직접 큐레이션한 고품질 경로 데이터베이스. 계층적 구조가 잘 되어 있다.

  • WikiPathways: 커뮤니티 기반으로 운영되며, 특정 질병이나 분야에 특화된 경로가 많다.

  • MSigDB: GSEA와 함께 쓰이는 유전자 세트 컬렉션. Hallmark gene sets가 특히 유용하다.

토폴로지 기반 방법

ORA와 GSEA는 경로의 **구조(topology)**를 고려하지 않는다. 경로 내에서 유전자의 위치, 상호작용 유형(활성/억제), 신호 흐름 방향 등을 반영하는 방법이 토폴로지 기반 경로 분석이다. SPIA, Clipper 등이 이 범주에 속한다.

토폴로지 기반 방법은 더 정교한 결과를 줄 수 있지만, 경로 구조 정보의 완전성에 의존하기 때문에 모든 상황에서 더 좋다고는 할 수 없다.

실전 권장 워크플로우

  • ORA로 빠르게 전체 그림을 파악한다.

  • GSEA로 ORA에서 놓쳤을 수 있는 약한 신호를 확인한다.

  • GO, KEGG, Reactome을 모두 시도하되, 결과를 비교해본다.

  • 결과 해석 시 유전자 세트 크기, 배경 유전자 설정, 다중 검정 보정에 주의한다.

  • clusterProfiler의 dotplot, enrichment map, cnetplot으로 시각화한다.

경로 분석은 결국 "유전자 목록에 생물학적 의미를 부여하는" 과정이다. 방법론도 중요하지만, 결과를 비판적으로 해석하는 눈이 더 중요하다. enrichment 결과를 그대로 받아들이지 말고, 해당 경로에 실제로 어떤 유전자가 기여하고 있는지 반드시 확인하자.

📚 참고 데이터베이스: PubMed | Nature


관련 읽을거리

관련 글