LC-MS/MS Proteomics 입문 — 샘플 준비부터 데이터 분석까지 완전 가이드 2026
프로테오믹스를 처음 시작하는 연구자와 실무자를 위한 LC-MS/MS 워크플로 완전 가이드. 샘플 준비(FASP/S-Trap), LC 그라디언트, DDA vs DIA, TMT vs LFQ 정량 비교, MaxQuant/FragPipe/DIA-NN 파이프라인 선택, 통계 분석 함정까지 2026년 표준 워크플로 정리.
왜 2026년에 프로테오믹스 가이드를 다시 써야 하나
5년 전 프로테오믹스 워크플로와 2026년 워크플로는 거의 다른 분야처럼 보일 정도로 변했다.
- DIA(Data-Independent Acquisition) 가 표준 정량 방법으로 자리 잡음 — 2020년만 해도 DDA 중심이었던 LFQ 분석이 이제 DIA-NN 기반 워크플로로 빠르게 이동.
- timsTOF Pro/SCP의 등장으로 단일세포 프로테오믹스가 실용화 단계 진입.
- AI/ML 기반 spectral library 예측(Prosit, DeepRT, AlphaPept) 도구로 prediction-only 분석이 가능해짐.
- 무료 도구가 상용을 능가하는 사례 증가 — FragPipe + MSFragger, DIA-NN이 실질 표준.
이 글은 막 프로테오믹스 실험을 시작하는 연구자, 혹은 오랜만에 다시 분야로 돌아오는 사람을 위한 2026년 기준 LC-MS/MS 완전 가이드다. 단순한 개요가 아니라 실제로 워크플로 결정을 내릴 수 있도록 구체적 비교와 트레이드오프를 포함한다.
프로테오믹스 워크플로 5단계 개요
1. 샘플 준비 (Sample Preparation)
↓
2. 단백질 추출·소화 (Extraction & Digestion)
↓
3. LC 분리 (Liquid Chromatography)
↓
4. MS 측정 (Mass Spectrometry)
↓
5. 데이터 분석 (Data Analysis & Statistics)
각 단계가 분석 결과에 영향을 주며, 한 단계 잘못되면 뒤 단계로 보상 불가. 특히 샘플 준비 단계 오류는 가장 흔하고 가장 회복 불가능.
Step 1-2: 샘플 준비와 단백질 소화
시작 재료별 권장 방법
| 샘플 | 권장 방법 | 이유 |
|---|---|---|
| 조직 (1-50mg) | S-Trap, RIPA + FASP | 일관성, scalable |
| 세포 펠릿 (10⁶-10⁷ cells) | S-Trap, in-solution | 빠름 |
| 혈장/혈청 (10-50μL) | TopN depletion + S-Trap | 알부민·IgG 제거 필수 |
| FFPE 조직 | SP3 + heat-induced antigen retrieval | 가교 해제 |
| 단일세포 (1-100 cells) | iST mini, OAD | 손실 최소화 |
핵심 프로토콜 비교
FASP (Filter-Aided Sample Preparation):
- 30kDa MWCO 필터에서 SDS 제거 + 소화
- 장점: 잘 검증됨, 많은 단백질 ID
- 단점: 손실(특히 hydrophobic), 시간 길다 (5-6h)
S-Trap (Suspension Trapping):
- 컬럼 기반, 10% SDS도 가능
- 장점: 빠름 (2-3h), 손실 적음, FFPE 잘 됨
- 단점: 컬럼 비용
iST (in-StageTip):
- C18 StageTip에서 모든 처리
- 장점: 매우 빠름 (1-2h), 자동화 가능
- 단점: 시작량 제한 (1-20μg)
SP3 (Single-Pot Solid-Phase-enhanced Sample Prep):
- 마그네틱 비드 기반
- 장점: 다중 샘플 자동화 강점, 단일세포까지 가능
- 단점: 비드 손실 시 결과 변동
트립신 소화 — 잊지 말 것
- 트립신 비율: 1:50 (효소:단백질), 37°C, 4-16시간
- 두 번 소화: 절반 양으로 1차 (2h) → 나머지 반 추가 후 overnight. ID 10-15% 증가
- 알킬화: IAA (iodoacetamide) 또는 IAM, 50mM, 30분 RT, 어두운 곳
- 환원: TCEP 또는 DTT, 10mM, 56°C 30분
자주 실수하는 것:
- 알킬화 시 빛 노출 (over-알킬화 위험)
- 트립신 사용 후 보관 — 자기소화로 매번 새로 준비
- 100% TFA 사용 — 펩티드 손실, 0.1% TFA가 표준
Quantification of peptides — 빼먹지 말 것
LC-MS 인젝션 전 펩티드 양을 정확히 측정해야 비교 가능한 데이터가 나온다.
- Pierce Quantitative Colorimetric Peptide Assay (BCA-like)
- NanoDrop A280 (대략적, 부정확하지만 빠름)
- LC pre-run (가장 정확하지만 MS 시간 소비)
Step 3: LC 분리 — 컬럼과 그라디언트
컬럼 선택
| 컬럼 | 내경 | 길이 | 사용 시나리오 |
|---|---|---|---|
| EasySpray PepMap C18 | 75μm | 50cm | 표준 nanoLC, DDA/DIA 양호 |
| Aurora 1.7μm | 75μm | 25cm | 빠른 그라디언트 (40-60min) |
| IonOpticks | 75μm | 25-50cm | timsTOF 최적화 |
| Capillary 1mm 컬럼 | 1mm | 15cm | 대량 샘플, 빠른 분석 |
입도(particle size) 작을수록 분리 좋지만 압력 높음:
- 3μm: 표준
- 1.7-1.9μm: 고분해능 (UPLC급)
- <1.7μm: 단일세포 등 미량 분석
그라디언트 설계
표준 60min 그라디언트 (75μm × 50cm 컬럼, 300nL/min):
Time (min) | B% (ACN + 0.1% FA)
0 | 4
5 | 4 (loading)
10 | 8
40 | 28 (메인 그라디언트)
55 | 45
58 | 95
60 | 95 (washing)
A 버퍼: 0.1% FA in water B 버퍼: 0.1% FA in 80-95% ACN
시간 단축 옵션:
- 30min 그라디언트: ID 약 70% (대량 샘플 처리)
- 90-120min 그라디언트: ID 약 110% (심층 분석)
- DIA의 경우 더 짧은 그라디언트 가능 (스펙트럴 라이브러리가 보상)
Step 4: MS 측정 — DDA vs DIA vs PRM
이 선택이 전체 워크플로의 성격을 결정한다.
DDA (Data-Dependent Acquisition)
가장 오래된 방식. MS1 스캔에서 가장 강한 N개 이온 선택 후 MS2로 단편화.
- 장점: 확립된 분석 파이프라인, 단백질 ID 신뢰성 높음
- 단점:
- 정량 missing values 많음 (랜덤 셀렉션 효과)
- 약한 신호 누락
- 같은 샘플 재측정 시 다른 결과
언제 쓰나: spectral library 구축, novel peptide discovery, PTM 발견
DIA (Data-Independent Acquisition)
m/z window별로 모든 이온을 단편화해 풀로 측정. SWATH, MSE, dia-PASEF 등 변종 있음.
- 장점:
- 거의 missing values 없음
- 재현성 매우 우수
- 정량 정확도 높음 (LFQ 기준)
- 단점:
- 데이터 복잡 (스펙트럼이 chimeric)
- 분석에 spectral library 필요 (또는 library-free 도구)
- 데이터 용량 큼
언제 쓰나: 정량 비교 연구 (case vs control), 다수 샘플(>30) 코호트 연구, 임상 프로테오믹스 — 2026년 기준 디폴트 선택
PRM (Parallel Reaction Monitoring) / MRM
특정 펩티드만 선택적으로 측정. 가장 민감하고 정량적.
- 장점: 최고의 정량 정확도, 낮은 농도 검출 가능 (수십 amol)
- 단점: 사전에 표적 펩티드 알아야 함
언제 쓰나: biomarker validation, 절대 정량, 약동학 연구
정량 방식: TMT vs LFQ
| 항목 | TMT (Tandem Mass Tag) | LFQ (Label-Free Quantification) |
|---|---|---|
| 다중화 | 11-16-plex (한 번에) | 1샘플씩 |
| 정량 정확도 | 매우 좋음 | DIA면 매우 좋음, DDA면 낮음 |
| 비용 (시약) | TMT 키트 ~$500-2000 | 추가 시약 없음 |
| 시간 효율 | 16샘플을 16시간에 (1샘플당 1h) | 16샘플을 16-24시간에 |
| Ratio compression | 있음 (특히 SPS-MS3 없으면) | 없음 |
| Missing values | 거의 없음 | DDA면 많음, DIA면 적음 |
| 추천 사용 | <30 샘플, 정밀 비교 | >30 샘플, 다양한 조건 |
2026 트렌드: 큰 코호트 연구는 DIA + LFQ, 정밀한 시계열·소규모 비교는 DDA + TMT.
Step 5: 데이터 분석 — 도구 선택과 통계
분석 파이프라인 비교
| 도구 | 라이선스 | DDA | DIA | TMT | 강점 |
|---|---|---|---|---|---|
| MaxQuant | 무료 | ✅ | ✅ (MaxDIA) | ✅ | 광범위 옵션, 오래된 표준 |
| FragPipe (+ MSFragger) | 무료 | ✅ | ✅ | ✅ | 매우 빠름 (10-100배), PTM 강점 |
| DIA-NN | 무료 | ❌ | ✅ | △ | DIA 표준, library-free 가능 |
| Proteome Discoverer | 상용 (~$10K/yr) | ✅ | ✅ | ✅ | GUI 친화적, Thermo 통합 |
| Spectronaut | 상용 (~$15K/yr) | △ | ✅✅ | △ | DIA 최강 GUI, library-free |
| Skyline | 무료 | ✅ | ✅ | ✅ | PRM/MRM 표준, 시각화 우수 |
현실 추천 (2026):
- DDA 처음: FragPipe (빠르고 정확)
- DIA 처음: DIA-NN (library-free 모드)
- PRM/MRM: Skyline (표준)
- 상용 가능: Spectronaut (DIA 최강)
MaxQuant vs FragPipe 속도 비교
같은 DDA 데이터 (24개 raw 파일, 60min 그라디언트 each)를 분석:
- MaxQuant: 18-24시간
- FragPipe (MSFragger 엔진): 30분-2시간
왜 그렇게 빠른가: MSFragger는 새로운 fragment ion indexing 알고리즘 사용. 동일 데이터에서 ID 수는 거의 같거나 약간 더 많음.
통계 분석 — 단순 t-test로 끝나지 않는 이유
💡 연관 글: 생물 통계 검정 선택 가이드에서 t-test, limma, ANOVA, mixed model의 선택 기준을 상세히 다뤘습니다.
프로테오믹스 정량 데이터(예: n=3 vs n=3, 단백질 5,000개)의 표준 통계 워크플로:
1. 정규화 (Normalization)
샘플 간 신호 강도 차이 보정. 가장 일반적:
- Median normalization: 단순, 효과적 (대부분 단백질이 변하지 않는다고 가정)
- VSN (Variance Stabilizing Normalization): 강도와 분산 관계 처리
- Cyclic loess: 더 정교, 계산량 큼
- Reference channel: TMT의 경우 한 채널을 pool로 사용
2. 결측치 처리 (Imputation)
DIA에서는 결측치 적음. DDA에서는 중요한 결정:
- 삭제: 한 그룹에서 모두 결측이면 제거 (안전한 선택)
- MinDet (minimum detected): 검출 한계 근처 값으로 대체 (단백질이 없어서 안 검출됐다는 가정)
- KNN, Random Forest: ML 기반 (NA 분포 가정 의존)
3. 통계 검정
- t-test: 가장 단순. n이 작으면(<5) 분산 추정 불안정
- limma (Empirical Bayes): 소규모 샘플의 표준 — 모든 단백질의 분산 정보를 빌려 안정화. R 패키지
limma사용 - ROTS: 비모수 대안, 더 보수적
# limma 표준 워크플로
library(limma)
design <- model.matrix(~0 + group)
contrast <- makeContrasts(Disease - Control, levels=design)
fit <- lmFit(log2(protein_matrix), design)
fit <- contrasts.fit(fit, contrast)
fit <- eBayes(fit)
results <- topTable(fit, number=Inf, adjust.method="BH")
4. 다중검정 보정 (Multiple Testing Correction)
5,000개 단백질을 동시 검정하면 우연만으로도 0.05 × 5,000 = 250개의 거짓양성. 반드시 보정:
- BH (Benjamini-Hochberg): 표준, FDR control.
p.adjust(p, method="BH") - Bonferroni: 너무 보수적, 거의 모든 단백질이 사라짐
임계값: adjusted p < 0.05 + |log2FC| > 1 이 가장 흔한 cutoff. 그러나 fold change 1.0이 임의적임을 인지 — 통계적 유의성과 생물학적 의미가 다를 수 있음.
5. 시각화
- Volcano plot: -log10(p) vs log2(FC) — 표준
- PCA / UMAP: 샘플 클러스터링 (배치 효과 발견)
- Heatmap: 발견 단백질 패턴 (clustered)
- Correlation matrix: 샘플 간 reproducibility
자주 만나는 함정 (Common Pitfalls)
1. 배치 효과 (Batch Effects)
샘플을 여러 날에 걸쳐 측정하면 측정 일자가 가장 큰 분산 원인이 될 수 있음.
방지:
- 무작위 순서로 측정 (모든 그룹 매 batch에 분포)
- QC 샘플 (pool)을 매 batch에 포함
- 분석 단계에서 ComBat, limma::removeBatchEffect 사용
2. Carryover (이전 샘플 잔여)
이전 샘플의 단백질이 다음 컬럼 측정에 남음. 풍부한 단백질 측정 후 미량 샘플 측정 시 큰 문제.
방지:
- Sample 사이에 wash injection (10-15min)
- 농도 낮은 순서로 측정
3. Contamination — Keratin, Trypsin 자가소화
- Keratin (피부, 머리카락): 가장 흔한 contamination. 모든 작업 장갑 + 후드에서, 컨택트 렌즈 만지지 말기
- Trypsin autolysis: 트립신 자체 펩티드. analysis에서 cRAP database 사용해 제외
4. 결측 데이터 잘못 다루기
DDA에서 결측치는 정량 분석을 심각하게 왜곡할 수 있음. "그냥 0으로" 처리는 금지. 항상 imputation 방법을 명시하고 결과의 sensitivity 검증.
5. ID = Quantification 아님
"단백질이 검출됐다"와 "정량적으로 비교 가능"은 다름. peptide intensity가 낮은 단백질은 noise가 커서 fold change가 신뢰 안 됨. min 2 peptides + intensity threshold 필터링 권장.
단일세포 프로테오믹스 (Single-Cell Proteomics, SCP)
2026년 가장 빠르게 발전 중인 영역.
기술 현황
- timsTOF SCP (Bruker): 한 셀에서 1,500-3,000 단백질 검출
- Orbitrap Astral (Thermo): 비슷한 깊이, throughput 강점
- DIA-PASEF + SCP 워크플로: 표준화 진행 중
핵심 도구
- OAD/CellenONE: 세포 분리 + dispensing 자동화
- iST mini: 마이크로 샘플 준비
- DIA-NN + library-free: 분석
응용
- 종양 heterogeneity 분석 (어떤 세포 클러스터가 약물 저항?)
- 면역세포 활성화 상태 비교
- 발생학 — 세포 분화 시점별 단백질 변화
한계
- 분석 시간 길음 (60-120min per cell)
- 비용 (한 실험 수천 달러)
- 데이터 분석 워크플로 아직 표준화 진행 중
프로테오믹스 vs 다른 오믹스 — 언제 무엇을 쓰나
| 질문 | 추천 오믹스 |
|---|---|
| "어떤 유전자가 발현?" | RNA-seq |
| "단백질 수준은 어떻게 변하나?" | Proteomics (RNA와 ~40% 일치) |
| "어떤 단백질 활성/수정?" | Phospho-proteomics, PTM 분석 |
| "대사 상태는?" | Metabolomics |
| "공간적 어디서 일어나나?" | Spatial proteomics / IMC |
| "어느 세포에서?" | Single-cell RNA-seq → Single-cell proteomics |
핵심: RNA 발현과 단백질 수준은 약 40-60%만 일치 (Vogel & Marcotte, 2012). 단백질 변화를 알고 싶으면 단백질을 측정해야 한다.
자주 묻는 질문 (FAQ)
Q: DIA vs DDA 어떤 걸 시작해야 하나요? 2026년 신규 프로젝트라면 DIA가 디폴트. 정량 재현성과 missing value 처리에서 압도적 우위. DDA는 spectral library 구축, novel PTM 발견 등 특수 목적용.
Q: TMT 16-plex가 좋다는데 무조건 TMT 써야 하나요? 샘플 수가 16개 이하 + 정확한 비교 필요시 좋음. 30+ 샘플 대규모 코호트는 DIA-LFQ가 더 경제적 + 분석 단순. 또한 TMT는 ratio compression(낮은 fold change 더 낮게 측정) 문제 있어 SPS-MS3 모드 필요.
Q: 한국에서 LC-MS/MS 프로테오믹스 분석 받으려면? 주요 위탁 기관:
- 한국기초과학지원연구원(KBSI): 전국 5개 센터, 학술 단가
- 마크로젠: 산업 단가, 빠른 turnaround
- 테라젠바이오: 일부 패널
- 각 대학 코어 시설: 서울대, KAIST, POSTECH 등 — 학내 사용자 우대
가격 (60min 그라디언트 DDA/DIA 1샘플): 학술 8-15만원, 산업 20-40만원. TMT는 추가 시약비.
Q: 결과 받아도 해석을 어떻게 해야 할까요?
- PCA로 샘플 분리 확인 (전혀 안 분리되면 실험 자체 재검토)
- Volcano plot으로 흥미로운 단백질 후보 추출
- STRING, Reactome, GO enrichment 로 functional context
- Top 후보 5-10개 → Western blot / ELISA validation
- 가설 검증 실험 설계
💡 다음 단계: Biomarker Discovery 실무 가이드에서 후보 단백질을 임상 biomarker로 발전시키는 전체 파이프라인을 다룹니다.
Q: AI/LLM 도구를 분석에 활용할 수 있나요? 가능한 영역:
- Spectral library 예측 (Prosit, AlphaPept): 검증된 효과
- Retention time 예측: DeepRT 등
- 결과 보고서 자동 작성: 보조 도구로 OK, 단 통계 결과 해석은 신중 (AI가 프로테오믹스 리포트를 쓸 수 있을까 참조)
위험 영역:
- LLM에 statistical decision 위임 (현재 정확도 부족)
- Raw spectrum 해석 (hallucination 위험)
Q: PTM (post-translational modification) 분석은 어떻게?
- 인산화 (phosphorylation): TiO2 또는 IMAC enrichment + DDA. 표준
- 글리코실화: HILIC 또는 lectin enrichment + EThcD fragmentation
- 유비퀴틴화: K-GG remnant antibody + DDA
- 아세틸화: 항체 기반 enrichment
각 PTM은 별도 sample preparation. 일반 proteomics 결과에서는 PTM 정량이 신뢰 안 됨.
결론 — 2026년 프로테오믹스 핵심 메시지
- DIA가 새로운 표준 — 정량 비교 연구는 디폴트로 DIA 선택
- 무료 도구가 강함 — FragPipe + DIA-NN 조합이 상용 대안
- 샘플 준비가 가장 중요 — S-Trap 또는 SP3로 일관성 확보
- 통계는 limma + BH FDR — t-test만으로 끝내지 말 것
- 단일세포 프로테오믹스 부상 중 — 5년 내 표준화 예상
기술은 빠르게 변하지만 **워크플로의 원칙(좋은 샘플 → 일관된 LC → 적절한 MS 모드 → 통계적으로 올바른 분석)**은 그대로다. 새 도구가 나와도 이 원칙에서 출발하면 길을 잃지 않는다.
관련 글:
- Biomarker Discovery: Complete Practical Guide for Researchers (2026)
- 생물 통계 검정 선택 가이드 — t-test, limma, ANOVA 언제 뭘 쓸까
- 2026 단백질체학(Proteomics) 연구 가이드
- DIA-NN 파이프라인 코드 리뷰 — FDR 보정 안하면 생기는 일
참고 문헌:
- Cox, J., & Mann, M. (2008). MaxQuant enables high peptide identification rates. Nature Biotechnology, 26, 1367-1372.
- Demichev, V. et al. (2020). DIA-NN: neural networks and interference correction enable deep proteome coverage. Nature Methods, 17, 41-44.
- Kong, A. T. et al. (2017). MSFragger: ultrafast and comprehensive peptide identification. Nature Methods, 14, 513-520.
- Brunner, A. D. et al. (2022). Ultra-high sensitivity mass spectrometry quantifies single-cell proteome changes. Molecular Systems Biology, 18, e10798.
관련 글
DIA-NN Proteomics Software Review — Features, Performance, and Tutorial
2월 20일 · 8 min read
도구/소프트웨어2026년 바이오인포매틱스 소프트웨어 가성비 순위: 어떤 걸 선택해야 할까?
3월 26일 · 28 min read
프로테오믹스DIA-NN 완전 정복: 2026년 최신 사용법부터 고급 분석까지
3월 24일 · 21 min read
ProteomicsReproducing Park et al. 2026: Three Iterations of a Cross-Species ECM Proteomics Pipeline
5월 19일 · 12 min read