RNA-seq 분석 파이프라인, 2025년 기준 어떤 걸 써야 할까
2025년 기준 RNA-seq 분석 파이프라인 비교. STAR, Salmon, DESeq2 등 주요 도구의 특징과 추천 워크플로우를 정리했다.
RNA-seq은 이제 거의 모든 생물학 실험실에서 일상적으로 쓰는 기술이 됐다. 문제는 분석 파이프라인이 너무 많다는 거다. HISAT2+StringTie, STAR+featureCounts, Salmon, kallisto… 뭘 써야 하는지 처음 접하는 사람은 혼란스러울 수밖에 없다.
Alignment 기반 vs Alignment-free
크게 두 갈래로 나뉜다. Alignment 기반은 리드를 참조 유전체에 매핑한 뒤 카운트하는 전통적인 방식이고, **Alignment-free(pseudo-alignment)**는 리드를 트랜스크립톰에 직접 매핑해서 빠르게 정량하는 방식이다.
Alignment 기반의 대표 주자는 STAR다. 속도도 빠르고 정확도도 높아서 현재 가장 널리 쓰인다. HISAT2는 메모리 사용량이 적어서 리소스가 제한된 환경에서 유리하지만, STAR의 성능이 워낙 좋아서 요즘은 STAR 쪽으로 많이 기울었다. Alignment 후에는 featureCounts나 HTSeq로 유전자별 카운트를 뽑는다.
Alignment-free 쪽에서는 Salmon과 kallisto가 양대 산맥이다. 둘 다 기존 방법 대비 10~100배 빠르면서도 정량 정확도가 뒤지지 않는다. 특히 transcript-level 정량이 필요하거나, 샘플이 많아서 속도가 중요한 경우에 진가를 발휘한다.
차등 발현 분석
카운트 데이터를 얻었으면 차등 발현 유전자(DEG)를 찾아야 한다. 이 단계에서 주로 쓰이는 R 패키지는 세 가지다:
-
DESeq2: 가장 많이 인용되는 도구. 샘플 수가 적을 때도 안정적이다.
-
edgeR: DESeq2와 비슷한 성능이지만, 복잡한 실험 디자인을 다루는 데 좀 더 유연하다.
-
limma-voom: 마이크로어레이 시절부터 이어져 온 limma의 RNA-seq 버전. 샘플이 많을 때 특히 강하다.
세 도구 모두 충분히 검증되어 있고, 결과도 대체로 비슷하다. 어떤 걸 쓰든 큰 문제는 없지만, 논문을 쓸 때는 하나를 메인으로 쓰고 나머지로 교차 검증하는 것을 추천한다.
내가 추천하는 파이프라인
2025년 기준, 일반적인 bulk RNA-seq 분석이라면 이렇게 구성하는 것을 권한다:
-
QC: FastQC + MultiQC
-
트리밍: fastp (Trimmomatic보다 빠르고 편하다)
-
매핑: STAR (또는 속도 우선이면 Salmon)
-
카운팅: featureCounts
-
DEG 분석: DESeq2
-
기능 분석: clusterProfiler (GO, KEGG enrichment)
물론 연구 목적에 따라 달라질 수 있다. Alternative splicing을 보고 싶으면 rMATS를, fusion gene을 찾고 싶으면 STAR-Fusion을 추가하면 된다. 파이프라인은 정답이 아니라 출발점이라는 걸 기억하자.
관련 읽을거리
- 💊 비타민D 부족이 만성피로의 원인? 혈액검사로 확인하세요 — Genobalance
- 🧠 뇌의 가소성: 우리 뇌는 왜 평생 변화하는가 — K-Brain Map
- 💻 AI 기술 동향: 핫 스타트업부터 윤리적 논쟁까지 — BRIC