scRNA-seq 단일세포 시퀀싱 분석 파이프라인 완벽 가이드 (2026)
Single cell RNA-seq 분석의 A to Z. 10x Genomics 기반 단일세포 시퀀싱 데이터의 전처리, 클러스터링, 세포 타입 어노테이션까지 분석 파이프라인을 단계별로 설명합니다.
단일세포 RNA 시퀀싱(scRNA-seq)이란?
**단일세포 RNA 시퀀싱(single-cell RNA sequencing, scRNA-seq)**은 개별 세포 수준에서 유전자 발현을 측정하는 기술입니다. 기존의 벌크(bulk) RNA-seq이 수천~수백만 개 세포의 평균 발현값을 제공하는 반면, scRNA-seq은 각 세포의 고유한 전사체 프로파일을 포착합니다.
이 기술은 세포 이질성(heterogeneity) 연구의 핵심 도구로, 종양 미세환경 분석, 발달 생물학, 면역학, 신경과학 등 거의 모든 생물학 분야에서 활용되고 있습니다. 2026년 기준, Human Cell Atlas 프로젝트는 5천만 개 이상의 단일세포 데이터를 공개하며 인체 세포 지도 완성에 근접하고 있습니다.
실험 플랫폼: 10x Genomics와 그 너머
10x Genomics Chromium
가장 널리 사용되는 droplet 기반 플랫폼으로, 한 번의 실험에서 수천~수만 개의 세포를 캡처할 수 있습니다. GEM(Gel Beads-in-Emulsion)을 이용해 각 세포에 고유 바코드를 부여하고, 3' 또는 5' 말단의 mRNA를 캡처합니다.
대안 플랫폼
- Parse Biosciences: 고정된 세포를 사용하는 combinatorial barcoding 방식
- BD Rhapsody: 마이크로웰 기반
- SMART-seq3: 전장(full-length) 전사체 분석에 특화
- sci-RNA-seq3: 조합적 인덱싱으로 수백만 세포 분석 가능
데이터 전처리 파이프라인
Step 1: Raw 데이터에서 카운트 매트릭스까지
10x Chromium 데이터의 경우 Cell Ranger 파이프라인을 사용합니다:
cellranger count --id=sample1 \
--transcriptome=/ref/GRCh38 \
--fastqs=/data/fastqs \
--sample=Sample1
결과물은 세포 × 유전자 카운트 매트릭스입니다. 대안으로 STARsolo나 **Alevin-fry(Salmon)**도 빠른 속도와 낮은 메모리 사용량으로 인기를 얻고 있습니다.
Step 2: 품질 관리(QC)와 필터링
import scanpy as sc
adata = sc.read_10x_h5("filtered_feature_bc_matrix.h5")
adata.var['mt'] = adata.var_names.str.startswith('MT-')
sc.pp.calculate_qc_metrics(adata, qc_vars=['mt'], inplace=True)
# 필터링 기준
adata = adata[adata.obs.n_genes_by_counts > 200, :]
adata = adata[adata.obs.n_genes_by_counts < 5000, :]
adata = adata[adata.obs.pct_counts_mt < 20, :]
주요 QC 지표는 세포당 검출 유전자 수, UMI 카운트, 미토콘드리아 유전자 비율입니다. Luecken & Theis의 Best Practices 논문을 참고하면 QC 기준 설정에 도움이 됩니다.
Step 3: 정규화와 차원 축소
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, n_top_genes=2000)
sc.pp.pca(adata, n_comps=50)
sc.pp.neighbors(adata, n_pcs=30)
sc.tl.umap(adata)
클러스터링과 세포 타입 어노테이션
비지도 클러스터링
Leiden 알고리즘이 표준으로 사용됩니다:
sc.tl.leiden(adata, resolution=0.5)
sc.pl.umap(adata, color='leiden')
자동 세포 타입 어노테이션
수동 마커 기반 어노테이션 외에, 2026년에는 AI 기반 자동 어노테이션 도구가 크게 발전했습니다:
- CellTypist: 면역세포 특화 분류기
- scGPT: 대규모 사전훈련 기반 파운데이션 모델
- scTab: 트랜스포머 기반 세포 분류
- Azimuth: Human Cell Atlas 참조 매핑
마이크로바이옴과 장 면역세포 연구에서도 단일세포 분석이 핵심 역할을 하고 있습니다.
고급 분석: 궤적 추론과 세포 간 통신
**RNA velocity(scVelo)**를 통해 세포의 미래 상태를 예측할 수 있으며, CellChat이나 **LIANA+**로 세포 간 리간드-수용체 상호작용을 분석할 수 있습니다. 또한 **공간 전사체학(Spatial Transcriptomics)**과 통합하면 세포의 위치 정보까지 결합한 분석이 가능합니다.
단일세포 시퀀싱은 생명과학 연구의 해상도를 세포 수준으로 끌어올린 혁명적 기술입니다. 적절한 실험 설계와 분석 파이프라인을 구축한다면, 그 어떤 생물학적 질문에도 강력한 답을 제공할 수 있습니다.