전사체학

단일세포 RNA 시퀀싱(scRNA-seq) 분석, 처음부터 끝까지

단일세포 RNA 시퀀싱 분석의 전체 흐름. 플랫폼 선택부터 클러스터링, 세포 타입 annotation까지 정리했다.

·5 min read
#RNA-seq#single-cell#transcriptomics#scRNA-seq#bioinformatics

Bulk RNA-seq이 조직 전체의 평균적인 유전자 발현을 보여준다면, 단일세포 RNA 시퀀싱(scRNA-seq)은 개별 세포의 발현 프로파일을 들여다본다. 같은 조직이라도 세포마다 발현 패턴이 다르고, 이 이질성(heterogeneity)이 질병의 메커니즘이나 약물 반응의 차이를 설명하는 경우가 많다.

기술 플랫폼

Multi-omics data integration and analysis workflow

Genomics and proteomics research in modern laboratory

현재 가장 널리 쓰이는 scRNA-seq 플랫폼은 10x Genomics Chromium이다. 드롭렛 기반으로 한 번에 수천~수만 개의 세포를 캡처할 수 있고, 라이브러리 준비부터 시퀀싱까지 프로토콜이 잘 표준화되어 있다. Smart-seq2/3는 전장(full-length) 전사체를 읽을 수 있어서 스플라이싱 분석에 유리하지만, 처리량이 낮다.

분석 파이프라인

10x 데이터 기준으로 표준적인 분석 흐름을 정리하면:

  • Cell Ranger: 10x에서 제공하는 공식 파이프라인. FASTQ에서 유전자-세포 카운트 매트릭스를 생성한다.

  • 품질 필터링: 미토콘드리아 유전자 비율이 높은 세포(죽은 세포), 유전자 수가 너무 적은 세포(빈 드롭렛), 너무 많은 세포(다중 캡처)를 제거한다.

  • 정규화: Seurat의 LogNormalize나 scran의 풀링 기반 정규화를 적용한다.

  • 고변동 유전자 선별(HVG): 세포 간 변동이 큰 유전자를 선별해서 이후 분석에 사용한다.

  • 차원 축소: PCA → UMAP (또는 t-SNE)으로 시각화한다.

  • 클러스터링: Louvain이나 Leiden 알고리즘으로 세포 군집을 찾는다.

  • 세포 타입 annotation: 마커 유전자 기반으로 수동 주석을 달거나, SingleR, CellTypist 같은 자동 도구를 활용한다.

Seurat vs Scanpy

분석 프레임워크의 양대 산맥은 R의 Seurat과 Python의 Scanpy다. Seurat은 R 생태계와의 통합이 좋고 통계 분석 기능이 풍부하다. Scanpy는 대규모 데이터를 다룰 때 메모리 효율이 좋고, AnnData 구조가 깔끔하다. 둘 다 잘 관리되고 있으니, 본인이 편한 언어를 기준으로 선택하면 된다.

넘어야 할 산: 배치 효과

여러 실험 배치의 데이터를 합칠 때 배치 효과(batch effect)는 거의 반드시 발생한다. Harmony, scVI, BBKNN 등의 배치 보정 도구가 있는데, 현재 Harmony가 속도와 성능의 균형이 가장 좋다는 평가를 받고 있다. 다만 생물학적 차이까지 보정해버리지 않도록 주의해야 한다.

scRNA-seq 분석은 도구가 빠르게 진화하고 있어서, 1년 전의 "best practice"가 오늘은 구식이 될 수 있다. 최신 벤치마크 논문을 꾸준히 따라가는 것이 중요하다.

📚 참고 데이터베이스: PubMed | Nature


관련 읽을거리

관련 글