생명과학

scRNA-seq 단일세포 시퀀싱 분석 파이프라인 완벽 가이드 (2026)

Single cell RNA-seq 분석의 A to Z. 10x Genomics 기반 단일세포 시퀀싱 데이터의 전처리, 클러스터링, 세포 타입 어노테이션까지 분석 파이프라인을 단계별로 설명합니다.

·5 min read
#단일세포시퀀싱#scRNA-seq#바이오인포매틱스#Seurat#Scanpy

Microscope with cell analysis

단일세포 RNA 시퀀싱(scRNA-seq)이란?

**단일세포 RNA 시퀀싱(single-cell RNA sequencing, scRNA-seq)**은 개별 세포 수준에서 유전자 발현을 측정하는 기술입니다. 기존의 벌크(bulk) RNA-seq이 수천~수백만 개 세포의 평균 발현값을 제공하는 반면, scRNA-seq은 각 세포의 고유한 전사체 프로파일을 포착합니다.

이 기술은 세포 이질성(heterogeneity) 연구의 핵심 도구로, 종양 미세환경 분석, 발달 생물학, 면역학, 신경과학 등 거의 모든 생물학 분야에서 활용되고 있습니다. 2026년 기준, Human Cell Atlas 프로젝트는 5천만 개 이상의 단일세포 데이터를 공개하며 인체 세포 지도 완성에 근접하고 있습니다.

실험 플랫폼: 10x Genomics와 그 너머

10x Genomics Chromium

가장 널리 사용되는 droplet 기반 플랫폼으로, 한 번의 실험에서 수천~수만 개의 세포를 캡처할 수 있습니다. GEM(Gel Beads-in-Emulsion)을 이용해 각 세포에 고유 바코드를 부여하고, 3' 또는 5' 말단의 mRNA를 캡처합니다.

대안 플랫폼

  • Parse Biosciences: 고정된 세포를 사용하는 combinatorial barcoding 방식
  • BD Rhapsody: 마이크로웰 기반
  • SMART-seq3: 전장(full-length) 전사체 분석에 특화
  • sci-RNA-seq3: 조합적 인덱싱으로 수백만 세포 분석 가능

데이터 전처리 파이프라인

Step 1: Raw 데이터에서 카운트 매트릭스까지

10x Chromium 데이터의 경우 Cell Ranger 파이프라인을 사용합니다:

cellranger count --id=sample1 \
  --transcriptome=/ref/GRCh38 \
  --fastqs=/data/fastqs \
  --sample=Sample1

결과물은 세포 × 유전자 카운트 매트릭스입니다. 대안으로 STARsolo나 **Alevin-fry(Salmon)**도 빠른 속도와 낮은 메모리 사용량으로 인기를 얻고 있습니다.

Step 2: 품질 관리(QC)와 필터링

import scanpy as sc

adata = sc.read_10x_h5("filtered_feature_bc_matrix.h5")
adata.var['mt'] = adata.var_names.str.startswith('MT-')
sc.pp.calculate_qc_metrics(adata, qc_vars=['mt'], inplace=True)

# 필터링 기준
adata = adata[adata.obs.n_genes_by_counts > 200, :]
adata = adata[adata.obs.n_genes_by_counts < 5000, :]
adata = adata[adata.obs.pct_counts_mt < 20, :]

주요 QC 지표는 세포당 검출 유전자 수, UMI 카운트, 미토콘드리아 유전자 비율입니다. Luecken & Theis의 Best Practices 논문을 참고하면 QC 기준 설정에 도움이 됩니다.

Step 3: 정규화와 차원 축소

sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, n_top_genes=2000)
sc.pp.pca(adata, n_comps=50)
sc.pp.neighbors(adata, n_pcs=30)
sc.tl.umap(adata)

클러스터링과 세포 타입 어노테이션

비지도 클러스터링

Leiden 알고리즘이 표준으로 사용됩니다:

sc.tl.leiden(adata, resolution=0.5)
sc.pl.umap(adata, color='leiden')

자동 세포 타입 어노테이션

수동 마커 기반 어노테이션 외에, 2026년에는 AI 기반 자동 어노테이션 도구가 크게 발전했습니다:

  • CellTypist: 면역세포 특화 분류기
  • scGPT: 대규모 사전훈련 기반 파운데이션 모델
  • scTab: 트랜스포머 기반 세포 분류
  • Azimuth: Human Cell Atlas 참조 매핑

마이크로바이옴과 장 면역세포 연구에서도 단일세포 분석이 핵심 역할을 하고 있습니다.

고급 분석: 궤적 추론과 세포 간 통신

**RNA velocity(scVelo)**를 통해 세포의 미래 상태를 예측할 수 있으며, CellChat이나 **LIANA+**로 세포 간 리간드-수용체 상호작용을 분석할 수 있습니다. 또한 **공간 전사체학(Spatial Transcriptomics)**과 통합하면 세포의 위치 정보까지 결합한 분석이 가능합니다.

단일세포 시퀀싱은 생명과학 연구의 해상도를 세포 수준으로 끌어올린 혁명적 기술입니다. 적절한 실험 설계와 분석 파이프라인을 구축한다면, 그 어떤 생물학적 질문에도 강력한 답을 제공할 수 있습니다.

관련 글