Proteomics

LC-MS/MS Proteomics 입문 — 샘플 준비부터 데이터 분석까지 완전 가이드 2026

프로테오믹스를 처음 시작하는 연구자와 실무자를 위한 LC-MS/MS 워크플로 완전 가이드. 샘플 준비(FASP/S-Trap), LC 그라디언트, DDA vs DIA, TMT vs LFQ 정량 비교, MaxQuant/FragPipe/DIA-NN 파이프라인 선택, 통계 분석 함정까지 2026년 표준 워크플로 정리.

·21 min read
#LC-MS/MS#Proteomics#DIA#DDA#TMT#LFQ#MaxQuant#FragPipe#DIA-NN#FASP#S-Trap#limma#단백질체학#Orbitrap#timsTOF

LC-MS/MS Proteomics Workflow

왜 2026년에 프로테오믹스 가이드를 다시 써야 하나

5년 전 프로테오믹스 워크플로와 2026년 워크플로는 거의 다른 분야처럼 보일 정도로 변했다.

  • DIA(Data-Independent Acquisition) 가 표준 정량 방법으로 자리 잡음 — 2020년만 해도 DDA 중심이었던 LFQ 분석이 이제 DIA-NN 기반 워크플로로 빠르게 이동.
  • timsTOF Pro/SCP의 등장으로 단일세포 프로테오믹스가 실용화 단계 진입.
  • AI/ML 기반 spectral library 예측(Prosit, DeepRT, AlphaPept) 도구로 prediction-only 분석이 가능해짐.
  • 무료 도구가 상용을 능가하는 사례 증가 — FragPipe + MSFragger, DIA-NN이 실질 표준.

이 글은 막 프로테오믹스 실험을 시작하는 연구자, 혹은 오랜만에 다시 분야로 돌아오는 사람을 위한 2026년 기준 LC-MS/MS 완전 가이드다. 단순한 개요가 아니라 실제로 워크플로 결정을 내릴 수 있도록 구체적 비교와 트레이드오프를 포함한다.

프로테오믹스 워크플로 5단계 개요

1. 샘플 준비 (Sample Preparation)
   ↓
2. 단백질 추출·소화 (Extraction & Digestion)
   ↓
3. LC 분리 (Liquid Chromatography)
   ↓
4. MS 측정 (Mass Spectrometry)
   ↓
5. 데이터 분석 (Data Analysis & Statistics)

각 단계가 분석 결과에 영향을 주며, 한 단계 잘못되면 뒤 단계로 보상 불가. 특히 샘플 준비 단계 오류는 가장 흔하고 가장 회복 불가능.

Step 1-2: 샘플 준비와 단백질 소화

시작 재료별 권장 방법

샘플권장 방법이유
조직 (1-50mg)S-Trap, RIPA + FASP일관성, scalable
세포 펠릿 (10⁶-10⁷ cells)S-Trap, in-solution빠름
혈장/혈청 (10-50μL)TopN depletion + S-Trap알부민·IgG 제거 필수
FFPE 조직SP3 + heat-induced antigen retrieval가교 해제
단일세포 (1-100 cells)iST mini, OAD손실 최소화

핵심 프로토콜 비교

FASP (Filter-Aided Sample Preparation):

  • 30kDa MWCO 필터에서 SDS 제거 + 소화
  • 장점: 잘 검증됨, 많은 단백질 ID
  • 단점: 손실(특히 hydrophobic), 시간 길다 (5-6h)

S-Trap (Suspension Trapping):

  • 컬럼 기반, 10% SDS도 가능
  • 장점: 빠름 (2-3h), 손실 적음, FFPE 잘 됨
  • 단점: 컬럼 비용

iST (in-StageTip):

  • C18 StageTip에서 모든 처리
  • 장점: 매우 빠름 (1-2h), 자동화 가능
  • 단점: 시작량 제한 (1-20μg)

SP3 (Single-Pot Solid-Phase-enhanced Sample Prep):

  • 마그네틱 비드 기반
  • 장점: 다중 샘플 자동화 강점, 단일세포까지 가능
  • 단점: 비드 손실 시 결과 변동

트립신 소화 — 잊지 말 것

  • 트립신 비율: 1:50 (효소:단백질), 37°C, 4-16시간
  • 두 번 소화: 절반 양으로 1차 (2h) → 나머지 반 추가 후 overnight. ID 10-15% 증가
  • 알킬화: IAA (iodoacetamide) 또는 IAM, 50mM, 30분 RT, 어두운 곳
  • 환원: TCEP 또는 DTT, 10mM, 56°C 30분

자주 실수하는 것:

  1. 알킬화 시 빛 노출 (over-알킬화 위험)
  2. 트립신 사용 후 보관 — 자기소화로 매번 새로 준비
  3. 100% TFA 사용 — 펩티드 손실, 0.1% TFA가 표준

Quantification of peptides — 빼먹지 말 것

LC-MS 인젝션 전 펩티드 양을 정확히 측정해야 비교 가능한 데이터가 나온다.

  • Pierce Quantitative Colorimetric Peptide Assay (BCA-like)
  • NanoDrop A280 (대략적, 부정확하지만 빠름)
  • LC pre-run (가장 정확하지만 MS 시간 소비)

Step 3: LC 분리 — 컬럼과 그라디언트

컬럼 선택

컬럼내경길이사용 시나리오
EasySpray PepMap C1875μm50cm표준 nanoLC, DDA/DIA 양호
Aurora 1.7μm75μm25cm빠른 그라디언트 (40-60min)
IonOpticks75μm25-50cmtimsTOF 최적화
Capillary 1mm 컬럼1mm15cm대량 샘플, 빠른 분석

입도(particle size) 작을수록 분리 좋지만 압력 높음:

  • 3μm: 표준
  • 1.7-1.9μm: 고분해능 (UPLC급)
  • <1.7μm: 단일세포 등 미량 분석

그라디언트 설계

표준 60min 그라디언트 (75μm × 50cm 컬럼, 300nL/min):

Time (min) | B% (ACN + 0.1% FA)
0         | 4
5         | 4 (loading)
10        | 8
40        | 28 (메인 그라디언트)
55        | 45
58        | 95
60        | 95 (washing)

A 버퍼: 0.1% FA in water B 버퍼: 0.1% FA in 80-95% ACN

시간 단축 옵션:

  • 30min 그라디언트: ID 약 70% (대량 샘플 처리)
  • 90-120min 그라디언트: ID 약 110% (심층 분석)
  • DIA의 경우 더 짧은 그라디언트 가능 (스펙트럴 라이브러리가 보상)

Step 4: MS 측정 — DDA vs DIA vs PRM

이 선택이 전체 워크플로의 성격을 결정한다.

DDA (Data-Dependent Acquisition)

가장 오래된 방식. MS1 스캔에서 가장 강한 N개 이온 선택 후 MS2로 단편화.

  • 장점: 확립된 분석 파이프라인, 단백질 ID 신뢰성 높음
  • 단점:
    • 정량 missing values 많음 (랜덤 셀렉션 효과)
    • 약한 신호 누락
    • 같은 샘플 재측정 시 다른 결과

언제 쓰나: spectral library 구축, novel peptide discovery, PTM 발견

DIA (Data-Independent Acquisition)

m/z window별로 모든 이온을 단편화해 풀로 측정. SWATH, MSE, dia-PASEF 등 변종 있음.

  • 장점:
    • 거의 missing values 없음
    • 재현성 매우 우수
    • 정량 정확도 높음 (LFQ 기준)
  • 단점:
    • 데이터 복잡 (스펙트럼이 chimeric)
    • 분석에 spectral library 필요 (또는 library-free 도구)
    • 데이터 용량 큼

언제 쓰나: 정량 비교 연구 (case vs control), 다수 샘플(>30) 코호트 연구, 임상 프로테오믹스 — 2026년 기준 디폴트 선택

PRM (Parallel Reaction Monitoring) / MRM

특정 펩티드만 선택적으로 측정. 가장 민감하고 정량적.

  • 장점: 최고의 정량 정확도, 낮은 농도 검출 가능 (수십 amol)
  • 단점: 사전에 표적 펩티드 알아야 함

언제 쓰나: biomarker validation, 절대 정량, 약동학 연구

정량 방식: TMT vs LFQ

항목TMT (Tandem Mass Tag)LFQ (Label-Free Quantification)
다중화11-16-plex (한 번에)1샘플씩
정량 정확도매우 좋음DIA면 매우 좋음, DDA면 낮음
비용 (시약)TMT 키트 ~$500-2000추가 시약 없음
시간 효율16샘플을 16시간에 (1샘플당 1h)16샘플을 16-24시간에
Ratio compression있음 (특히 SPS-MS3 없으면)없음
Missing values거의 없음DDA면 많음, DIA면 적음
추천 사용<30 샘플, 정밀 비교>30 샘플, 다양한 조건

2026 트렌드: 큰 코호트 연구는 DIA + LFQ, 정밀한 시계열·소규모 비교는 DDA + TMT.

Step 5: 데이터 분석 — 도구 선택과 통계

분석 파이프라인 비교

도구라이선스DDADIATMT강점
MaxQuant무료✅ (MaxDIA)광범위 옵션, 오래된 표준
FragPipe (+ MSFragger)무료매우 빠름 (10-100배), PTM 강점
DIA-NN무료DIA 표준, library-free 가능
Proteome Discoverer상용 (~$10K/yr)GUI 친화적, Thermo 통합
Spectronaut상용 (~$15K/yr)✅✅DIA 최강 GUI, library-free
Skyline무료PRM/MRM 표준, 시각화 우수

현실 추천 (2026):

  • DDA 처음: FragPipe (빠르고 정확)
  • DIA 처음: DIA-NN (library-free 모드)
  • PRM/MRM: Skyline (표준)
  • 상용 가능: Spectronaut (DIA 최강)

MaxQuant vs FragPipe 속도 비교

같은 DDA 데이터 (24개 raw 파일, 60min 그라디언트 each)를 분석:

  • MaxQuant: 18-24시간
  • FragPipe (MSFragger 엔진): 30분-2시간

왜 그렇게 빠른가: MSFragger는 새로운 fragment ion indexing 알고리즘 사용. 동일 데이터에서 ID 수는 거의 같거나 약간 더 많음.

통계 분석 — 단순 t-test로 끝나지 않는 이유

💡 연관 글: 생물 통계 검정 선택 가이드에서 t-test, limma, ANOVA, mixed model의 선택 기준을 상세히 다뤘습니다.

프로테오믹스 정량 데이터(예: n=3 vs n=3, 단백질 5,000개)의 표준 통계 워크플로:

1. 정규화 (Normalization)

샘플 간 신호 강도 차이 보정. 가장 일반적:

  • Median normalization: 단순, 효과적 (대부분 단백질이 변하지 않는다고 가정)
  • VSN (Variance Stabilizing Normalization): 강도와 분산 관계 처리
  • Cyclic loess: 더 정교, 계산량 큼
  • Reference channel: TMT의 경우 한 채널을 pool로 사용

2. 결측치 처리 (Imputation)

DIA에서는 결측치 적음. DDA에서는 중요한 결정:

  • 삭제: 한 그룹에서 모두 결측이면 제거 (안전한 선택)
  • MinDet (minimum detected): 검출 한계 근처 값으로 대체 (단백질이 없어서 안 검출됐다는 가정)
  • KNN, Random Forest: ML 기반 (NA 분포 가정 의존)

3. 통계 검정

  • t-test: 가장 단순. n이 작으면(<5) 분산 추정 불안정
  • limma (Empirical Bayes): 소규모 샘플의 표준 — 모든 단백질의 분산 정보를 빌려 안정화. R 패키지 limma 사용
  • ROTS: 비모수 대안, 더 보수적
# limma 표준 워크플로
library(limma)
design <- model.matrix(~0 + group)
contrast <- makeContrasts(Disease - Control, levels=design)
fit <- lmFit(log2(protein_matrix), design)
fit <- contrasts.fit(fit, contrast)
fit <- eBayes(fit)
results <- topTable(fit, number=Inf, adjust.method="BH")

4. 다중검정 보정 (Multiple Testing Correction)

5,000개 단백질을 동시 검정하면 우연만으로도 0.05 × 5,000 = 250개의 거짓양성. 반드시 보정:

  • BH (Benjamini-Hochberg): 표준, FDR control. p.adjust(p, method="BH")
  • Bonferroni: 너무 보수적, 거의 모든 단백질이 사라짐

임계값: adjusted p < 0.05 + |log2FC| > 1 이 가장 흔한 cutoff. 그러나 fold change 1.0이 임의적임을 인지 — 통계적 유의성과 생물학적 의미가 다를 수 있음.

5. 시각화

  • Volcano plot: -log10(p) vs log2(FC) — 표준
  • PCA / UMAP: 샘플 클러스터링 (배치 효과 발견)
  • Heatmap: 발견 단백질 패턴 (clustered)
  • Correlation matrix: 샘플 간 reproducibility

자주 만나는 함정 (Common Pitfalls)

1. 배치 효과 (Batch Effects)

샘플을 여러 날에 걸쳐 측정하면 측정 일자가 가장 큰 분산 원인이 될 수 있음.

방지:

  • 무작위 순서로 측정 (모든 그룹 매 batch에 분포)
  • QC 샘플 (pool)을 매 batch에 포함
  • 분석 단계에서 ComBat, limma::removeBatchEffect 사용

2. Carryover (이전 샘플 잔여)

이전 샘플의 단백질이 다음 컬럼 측정에 남음. 풍부한 단백질 측정 후 미량 샘플 측정 시 큰 문제.

방지:

  • Sample 사이에 wash injection (10-15min)
  • 농도 낮은 순서로 측정

3. Contamination — Keratin, Trypsin 자가소화

  • Keratin (피부, 머리카락): 가장 흔한 contamination. 모든 작업 장갑 + 후드에서, 컨택트 렌즈 만지지 말기
  • Trypsin autolysis: 트립신 자체 펩티드. analysis에서 cRAP database 사용해 제외

4. 결측 데이터 잘못 다루기

DDA에서 결측치는 정량 분석을 심각하게 왜곡할 수 있음. "그냥 0으로" 처리는 금지. 항상 imputation 방법을 명시하고 결과의 sensitivity 검증.

5. ID = Quantification 아님

"단백질이 검출됐다"와 "정량적으로 비교 가능"은 다름. peptide intensity가 낮은 단백질은 noise가 커서 fold change가 신뢰 안 됨. min 2 peptides + intensity threshold 필터링 권장.

단일세포 프로테오믹스 (Single-Cell Proteomics, SCP)

2026년 가장 빠르게 발전 중인 영역.

기술 현황

  • timsTOF SCP (Bruker): 한 셀에서 1,500-3,000 단백질 검출
  • Orbitrap Astral (Thermo): 비슷한 깊이, throughput 강점
  • DIA-PASEF + SCP 워크플로: 표준화 진행 중

핵심 도구

  • OAD/CellenONE: 세포 분리 + dispensing 자동화
  • iST mini: 마이크로 샘플 준비
  • DIA-NN + library-free: 분석

응용

  • 종양 heterogeneity 분석 (어떤 세포 클러스터가 약물 저항?)
  • 면역세포 활성화 상태 비교
  • 발생학 — 세포 분화 시점별 단백질 변화

한계

  • 분석 시간 길음 (60-120min per cell)
  • 비용 (한 실험 수천 달러)
  • 데이터 분석 워크플로 아직 표준화 진행 중

프로테오믹스 vs 다른 오믹스 — 언제 무엇을 쓰나

질문추천 오믹스
"어떤 유전자가 발현?"RNA-seq
"단백질 수준은 어떻게 변하나?"Proteomics (RNA와 ~40% 일치)
"어떤 단백질 활성/수정?"Phospho-proteomics, PTM 분석
"대사 상태는?"Metabolomics
"공간적 어디서 일어나나?"Spatial proteomics / IMC
"어느 세포에서?"Single-cell RNA-seq → Single-cell proteomics

핵심: RNA 발현과 단백질 수준은 약 40-60%만 일치 (Vogel & Marcotte, 2012). 단백질 변화를 알고 싶으면 단백질을 측정해야 한다.

자주 묻는 질문 (FAQ)

Q: DIA vs DDA 어떤 걸 시작해야 하나요? 2026년 신규 프로젝트라면 DIA가 디폴트. 정량 재현성과 missing value 처리에서 압도적 우위. DDA는 spectral library 구축, novel PTM 발견 등 특수 목적용.

Q: TMT 16-plex가 좋다는데 무조건 TMT 써야 하나요? 샘플 수가 16개 이하 + 정확한 비교 필요시 좋음. 30+ 샘플 대규모 코호트는 DIA-LFQ가 더 경제적 + 분석 단순. 또한 TMT는 ratio compression(낮은 fold change 더 낮게 측정) 문제 있어 SPS-MS3 모드 필요.

Q: 한국에서 LC-MS/MS 프로테오믹스 분석 받으려면? 주요 위탁 기관:

  • 한국기초과학지원연구원(KBSI): 전국 5개 센터, 학술 단가
  • 마크로젠: 산업 단가, 빠른 turnaround
  • 테라젠바이오: 일부 패널
  • 각 대학 코어 시설: 서울대, KAIST, POSTECH 등 — 학내 사용자 우대

가격 (60min 그라디언트 DDA/DIA 1샘플): 학술 8-15만원, 산업 20-40만원. TMT는 추가 시약비.

Q: 결과 받아도 해석을 어떻게 해야 할까요?

  1. PCA로 샘플 분리 확인 (전혀 안 분리되면 실험 자체 재검토)
  2. Volcano plot으로 흥미로운 단백질 후보 추출
  3. STRING, Reactome, GO enrichment 로 functional context
  4. Top 후보 5-10개 → Western blot / ELISA validation
  5. 가설 검증 실험 설계

💡 다음 단계: Biomarker Discovery 실무 가이드에서 후보 단백질을 임상 biomarker로 발전시키는 전체 파이프라인을 다룹니다.

Q: AI/LLM 도구를 분석에 활용할 수 있나요? 가능한 영역:

위험 영역:

  • LLM에 statistical decision 위임 (현재 정확도 부족)
  • Raw spectrum 해석 (hallucination 위험)

Q: PTM (post-translational modification) 분석은 어떻게?

  • 인산화 (phosphorylation): TiO2 또는 IMAC enrichment + DDA. 표준
  • 글리코실화: HILIC 또는 lectin enrichment + EThcD fragmentation
  • 유비퀴틴화: K-GG remnant antibody + DDA
  • 아세틸화: 항체 기반 enrichment

각 PTM은 별도 sample preparation. 일반 proteomics 결과에서는 PTM 정량이 신뢰 안 됨.

결론 — 2026년 프로테오믹스 핵심 메시지

  1. DIA가 새로운 표준 — 정량 비교 연구는 디폴트로 DIA 선택
  2. 무료 도구가 강함 — FragPipe + DIA-NN 조합이 상용 대안
  3. 샘플 준비가 가장 중요 — S-Trap 또는 SP3로 일관성 확보
  4. 통계는 limma + BH FDR — t-test만으로 끝내지 말 것
  5. 단일세포 프로테오믹스 부상 중 — 5년 내 표준화 예상

기술은 빠르게 변하지만 **워크플로의 원칙(좋은 샘플 → 일관된 LC → 적절한 MS 모드 → 통계적으로 올바른 분석)**은 그대로다. 새 도구가 나와도 이 원칙에서 출발하면 길을 잃지 않는다.


관련 글:

참고 문헌:

  • Cox, J., & Mann, M. (2008). MaxQuant enables high peptide identification rates. Nature Biotechnology, 26, 1367-1372.
  • Demichev, V. et al. (2020). DIA-NN: neural networks and interference correction enable deep proteome coverage. Nature Methods, 17, 41-44.
  • Kong, A. T. et al. (2017). MSFragger: ultrafast and comprehensive peptide identification. Nature Methods, 14, 513-520.
  • Brunner, A. D. et al. (2022). Ultra-high sensitivity mass spectrometry quantifies single-cell proteome changes. Molecular Systems Biology, 18, e10798.

관련 글