LC-MS/MS Proteomics 입문 — 샘플 준비부터 데이터 분석까지 완전 가이드 2026

Q: DIA vs DDA 어떤 걸 시작해야 하나요?

2026년 신규 프로젝트라면 DIA가 디폴트. 정량 재현성과 missing value 처리에서 압도적 우위. DDA는 spectral library 구축, novel PTM 발견 등 특수 목적용.

Q: 한국에서 LC-MS/MS 프로테오믹스 분석 받으려면?

주요 위탁 기관: - 한국기초과학지원연구원(KBSI): 전국 5개 센터, 학술 단가 - 마크로젠: 산업 단가, 빠른 turnaround - 테라젠바이오: 일부 패널 - 각 대학 코어 시설: 서울대, KAIST, POSTECH 등 — 학내 사용자 우대 가격 (60min 그라디언트 DDA/DIA 1샘플): 학술 8-15만원, 산업 20-40만원. TMT는 추가 시약비.

Q: 결과 받아도 해석을 어떻게 해야 할까요?

1. PCA로 샘플 분리 확인 (전혀 안 분리되면 실험 자체 재검토) 2. Volcano plot으로 흥미로운 단백질 후보 추출 3. STRING, Reactome, GO enrichment 로 functional context 4. Top 후보 5-10개 → Western blot / ELISA validation 5. 가설 검증 실험 설계 > 💡 다음 단계: Biomarker Discovery 실무 가이드에서 후보 단백질을 임상 biomarker로 발전시키는 전체 파이프라인을 다룹니다.

Q: AI/LLM 도구를 분석에 활용할 수 있나요?

가능한 영역: - Spectral library 예측 (Prosit, AlphaPept): 검증된 효과 - Retention time 예측: DeepRT 등 - 결과 보고서 자동 작성: 보조 도구로 OK, 단 통계 결과 해석은 신중 (AI가 프로테오믹스 리포트를 쓸 수 있을까 참조) 위험 영역: - LLM에 statistical decision 위임 (현재 정확도 부족) - Raw spectrum 해석 (hallucination 위험)

Q: PTM (post-translational modification) 분석은 어떻게?

- 인산화 (phosphorylation): TiO2 또는 IMAC enrichment + DDA. 표준 - 글리코실화: HILIC 또는 lectin enrichment + EThcD fragmentation - 유비퀴틴화: K-GG remnant antibody + DDA - 아세틸화: 항체 기반 enrichment 각 PTM은 별도 sample preparation. 일반 proteomics 결과에서는 PTM 정량이 신뢰 안 됨.

LC-MS/MS Proteomics Workflow

핵심 요약 (TL;DR)

2026년 LC-MS/MS 프로테오믹스 표준 워크플로:

샘플 준비: 조직은 S-Trap (2-3시간) 또는 SP3 (자동화), 혈장은 TopN depletion → S-Trap
MS 모드: 정량 비교 연구는 DIA + DIA-NN 가 디폴트 (DDA는 spectral library 구축 / PTM 발견용)
정량: 다수 샘플 (>30)은 LFQ, 정밀 비교 (<30)는 TMT
데이터 분석: 검색은 FragPipe + MSFragger (MaxQuant 대비 10-50배 빠름), 통계는 limma 또는 DEqMS (n=3-10), 정규화는 median 또는 VSN, 결측치는 valid-value filter (≥3/n 검출)
DEP 기준: FC ≥ 2 AND adj.p < 0.05 (BH-FDR)

가장 흔한 함정 3가지: (1) pseudocount로 결측치 처리하면 log2(FC) 폭발, (2) 종간 분석 시 FASTA 합쳐서 검색하면 shared peptide 문제, (3) 단일 페타이드 단백질이 정량 결과 오염.

정의

LC-MS/MS Proteomics (Liquid Chromatography Tandem Mass Spectrometry 기반 단백질체학) = 단백질 시료를 트립신으로 펩티드로 소화 → LC로 분리 → MS/MS로 측정 → 데이터베이스 검색으로 단백질 ID + 정량. 2026년 표준은 nanoLC (75μm × 50cm C18 컬럼) + Q Exactive / Orbitrap Astral / timsTOF Pro mass spec + DIA 정량 + DIA-NN / FragPipe 분석. 결과 deposit은 PRIDE 또는 MassIVE 저장소가 표준.

왜 2026년에 프로테오믹스 가이드를 다시 써야 하나

5년 전 프로테오믹스 워크플로와 2026년 워크플로는 거의 다른 분야처럼 보일 정도로 변했다.

DIA(Data-Independent Acquisition) 가 표준 정량 방법으로 자리 잡음 — 2020년만 해도 DDA 중심이었던 LFQ 분석이 이제 DIA-NN 기반 워크플로로 빠르게 이동.
timsTOF Pro/SCP의 등장으로 단일세포 프로테오믹스가 실용화 단계 진입.
AI/ML 기반 spectral library 예측(Prosit, DeepRT, AlphaPept) 도구로 prediction-only 분석이 가능해짐.
무료 도구가 상용을 능가하는 사례 증가 — FragPipe + MSFragger, DIA-NN이 실질 표준.

이 글은 막 프로테오믹스 실험을 시작하는 연구자, 혹은 오랜만에 다시 분야로 돌아오는 사람을 위한 2026년 기준 LC-MS/MS 완전 가이드다. 단순한 개요가 아니라 실제로 워크플로 결정을 내릴 수 있도록 구체적 비교와 트레이드오프를 포함한다.

프로테오믹스 워크플로 5단계 개요

1. 샘플 준비 (Sample Preparation)
   ↓
2. 단백질 추출·소화 (Extraction & Digestion)
   ↓
3. LC 분리 (Liquid Chromatography)
   ↓
4. MS 측정 (Mass Spectrometry)
   ↓
5. 데이터 분석 (Data Analysis & Statistics)

각 단계가 분석 결과에 영향을 주며, 한 단계 잘못되면 뒤 단계로 보상 불가. 특히 샘플 준비 단계 오류는 가장 흔하고 가장 회복 불가능.

Step 1-2: 샘플 준비와 단백질 소화

시작 재료별 권장 방법

샘플	권장 방법	이유
조직 (1-50mg)	S-Trap, RIPA + FASP	일관성, scalable
세포 펠릿 (10⁶-10⁷ cells)	S-Trap, in-solution	빠름
혈장/혈청 (10-50μL)	TopN depletion + S-Trap	알부민·IgG 제거 필수
FFPE 조직	SP3 + heat-induced antigen retrieval	가교 해제
단일세포 (1-100 cells)	iST mini, OAD	손실 최소화

핵심 프로토콜 비교

FASP (Filter-Aided Sample Preparation):

30kDa MWCO 필터에서 SDS 제거 + 소화
장점: 잘 검증됨, 많은 단백질 ID
단점: 손실(특히 hydrophobic), 시간 길다 (5-6h)

S-Trap (Suspension Trapping):

컬럼 기반, 10% SDS도 가능
장점: 빠름 (2-3h), 손실 적음, FFPE 잘 됨
단점: 컬럼 비용

iST (in-StageTip):

C18 StageTip에서 모든 처리
장점: 매우 빠름 (1-2h), 자동화 가능
단점: 시작량 제한 (1-20μg)

SP3 (Single-Pot Solid-Phase-enhanced Sample Prep):

마그네틱 비드 기반
장점: 다중 샘플 자동화 강점, 단일세포까지 가능
단점: 비드 손실 시 결과 변동

트립신 소화 — 잊지 말 것

트립신 비율: 1:50 (효소:단백질), 37°C, 4-16시간
두 번 소화: 절반 양으로 1차 (2h) → 나머지 반 추가 후 overnight. ID 10-15% 증가
알킬화: IAA (iodoacetamide) 또는 IAM, 50mM, 30분 RT, 어두운 곳
환원: TCEP 또는 DTT, 10mM, 56°C 30분

자주 실수하는 것:

알킬화 시 빛 노출 (over-알킬화 위험)
트립신 사용 후 보관 — 자기소화로 매번 새로 준비
100% TFA 사용 — 펩티드 손실, 0.1% TFA가 표준

Quantification of peptides — 빼먹지 말 것

LC-MS 인젝션 전 펩티드 양을 정확히 측정해야 비교 가능한 데이터가 나온다.

Pierce Quantitative Colorimetric Peptide Assay (BCA-like)
NanoDrop A280 (대략적, 부정확하지만 빠름)
LC pre-run (가장 정확하지만 MS 시간 소비)

Step 3: LC 분리 — 컬럼과 그라디언트

컬럼 선택

컬럼	내경	길이	사용 시나리오
EasySpray PepMap C18	75μm	50cm	표준 nanoLC, DDA/DIA 양호
Aurora 1.7μm	75μm	25cm	빠른 그라디언트 (40-60min)
IonOpticks	75μm	25-50cm	timsTOF 최적화
Capillary 1mm 컬럼	1mm	15cm	대량 샘플, 빠른 분석

입도(particle size) 작을수록 분리 좋지만 압력 높음:

3μm: 표준
1.7-1.9μm: 고분해능 (UPLC급)
<1.7μm: 단일세포 등 미량 분석

그라디언트 설계

표준 60min 그라디언트 (75μm × 50cm 컬럼, 300nL/min):

Time (min) | B% (ACN + 0.1% FA)
0         | 4
5         | 4 (loading)
10        | 8
40        | 28 (메인 그라디언트)
55        | 45
58        | 95
60        | 95 (washing)

A 버퍼: 0.1% FA in water B 버퍼: 0.1% FA in 80-95% ACN

시간 단축 옵션:

30min 그라디언트: ID 약 70% (대량 샘플 처리)
90-120min 그라디언트: ID 약 110% (심층 분석)
DIA의 경우 더 짧은 그라디언트 가능 (스펙트럴 라이브러리가 보상)

Step 4: MS 측정 — DDA vs DIA vs PRM

이 선택이 전체 워크플로의 성격을 결정한다.

DDA (Data-Dependent Acquisition)

가장 오래된 방식. MS1 스캔에서 가장 강한 N개 이온 선택 후 MS2로 단편화.

장점: 확립된 분석 파이프라인, 단백질 ID 신뢰성 높음
단점:
- 정량 missing values 많음 (랜덤 셀렉션 효과)
- 약한 신호 누락
- 같은 샘플 재측정 시 다른 결과

언제 쓰나: spectral library 구축, novel peptide discovery, PTM 발견

DIA (Data-Independent Acquisition)

m/z window별로 모든 이온을 단편화해 풀로 측정. SWATH, MSE, dia-PASEF 등 변종 있음.

장점:
- 거의 missing values 없음
- 재현성 매우 우수
- 정량 정확도 높음 (LFQ 기준)
단점:
- 데이터 복잡 (스펙트럼이 chimeric)
- 분석에 spectral library 필요 (또는 library-free 도구)
- 데이터 용량 큼

언제 쓰나: 정량 비교 연구 (case vs control), 다수 샘플(>30) 코호트 연구, 임상 프로테오믹스 — 2026년 기준 디폴트 선택

PRM (Parallel Reaction Monitoring) / MRM

특정 펩티드만 선택적으로 측정. 가장 민감하고 정량적.

장점: 최고의 정량 정확도, 낮은 농도 검출 가능 (수십 amol)
단점: 사전에 표적 펩티드 알아야 함

언제 쓰나: biomarker validation, 절대 정량, 약동학 연구

정량 방식: TMT vs LFQ

항목	TMT (Tandem Mass Tag)	LFQ (Label-Free Quantification)
다중화	11-16-plex (한 번에)	1샘플씩
정량 정확도	매우 좋음	DIA면 매우 좋음, DDA면 낮음
비용 (시약)	TMT 키트 ~$500-2000	추가 시약 없음
시간 효율	16샘플을 16시간에 (1샘플당 1h)	16샘플을 16-24시간에
Ratio compression	있음 (특히 SPS-MS3 없으면)	없음
Missing values	거의 없음	DDA면 많음, DIA면 적음
추천 사용	<30 샘플, 정밀 비교	>30 샘플, 다양한 조건

2026 트렌드: 큰 코호트 연구는 DIA + LFQ, 정밀한 시계열·소규모 비교는 DDA + TMT.

Step 5: 데이터 분석 — 도구 선택과 통계

분석 파이프라인 비교

도구	라이선스	DDA	DIA	TMT	강점
MaxQuant	무료	✅	✅ (MaxDIA)	✅	광범위 옵션, 오래된 표준
FragPipe (+ MSFragger)	무료	✅	✅	✅	매우 빠름 (10-100배), PTM 강점
DIA-NN	무료	❌	✅	△	DIA 표준, library-free 가능
Proteome Discoverer	상용 (~$10K/yr)	✅	✅	✅	GUI 친화적, Thermo 통합
Spectronaut	상용 (~$15K/yr)	△	✅✅	△	DIA 최강 GUI, library-free
Skyline	무료	✅	✅	✅	PRM/MRM 표준, 시각화 우수

현실 추천 (2026):

DDA 처음: FragPipe (빠르고 정확)
DIA 처음: DIA-NN (library-free 모드)
PRM/MRM: Skyline (표준)
상용 가능: Spectronaut (DIA 최강)

MaxQuant vs FragPipe 속도 비교

같은 DDA 데이터 (24개 raw 파일, 60min 그라디언트 each)를 분석:

MaxQuant: 18-24시간
FragPipe (MSFragger 엔진): 30분-2시간

왜 그렇게 빠른가: MSFragger는 새로운 fragment ion indexing 알고리즘 사용. 동일 데이터에서 ID 수는 거의 같거나 약간 더 많음.

통계 분석 — 단순 t-test로 끝나지 않는 이유

💡 연관 글: 생물 통계 검정 선택 가이드에서 t-test, limma, ANOVA, mixed model의 선택 기준을 상세히 다뤘습니다.

프로테오믹스 정량 데이터(예: n=3 vs n=3, 단백질 5,000개)의 표준 통계 워크플로:

1. 정규화 (Normalization)

샘플 간 신호 강도 차이 보정. 가장 일반적:

Median normalization: 단순, 효과적 (대부분 단백질이 변하지 않는다고 가정)
VSN (Variance Stabilizing Normalization): 강도와 분산 관계 처리
Cyclic loess: 더 정교, 계산량 큼
Reference channel: TMT의 경우 한 채널을 pool로 사용

2. 결측치 처리 (Imputation)

DIA에서는 결측치 적음. DDA에서는 중요한 결정:

삭제: 한 그룹에서 모두 결측이면 제거 (안전한 선택)
MinDet (minimum detected): 검출 한계 근처 값으로 대체 (단백질이 없어서 안 검출됐다는 가정)
KNN, Random Forest: ML 기반 (NA 분포 가정 의존)

3. 통계 검정

t-test: 가장 단순. n이 작으면(<5) 분산 추정 불안정
limma (Empirical Bayes): 소규모 샘플의 표준 — 모든 단백질의 분산 정보를 빌려 안정화. R 패키지 limma 사용
ROTS: 비모수 대안, 더 보수적

# limma 표준 워크플로
library(limma)
design <- model.matrix(~0 + group)
contrast <- makeContrasts(Disease - Control, levels=design)
fit <- lmFit(log2(protein_matrix), design)
fit <- contrasts.fit(fit, contrast)
fit <- eBayes(fit)
results <- topTable(fit, number=Inf, adjust.method="BH")

4. 다중검정 보정 (Multiple Testing Correction)

5,000개 단백질을 동시 검정하면 우연만으로도 0.05 × 5,000 = 250개의 거짓양성. 반드시 보정:

BH (Benjamini-Hochberg): 표준, FDR control. p.adjust(p, method="BH")
Bonferroni: 너무 보수적, 거의 모든 단백질이 사라짐

임계값: adjusted p < 0.05 + |log2FC| > 1 이 가장 흔한 cutoff. 그러나 fold change 1.0이 임의적임을 인지 — 통계적 유의성과 생물학적 의미가 다를 수 있음.

5. 시각화

Volcano plot: -log10(p) vs log2(FC) — 표준
PCA / UMAP: 샘플 클러스터링 (배치 효과 발견)
Heatmap: 발견 단백질 패턴 (clustered)
Correlation matrix: 샘플 간 reproducibility

자주 만나는 함정 (Common Pitfalls)

1. 배치 효과 (Batch Effects)

샘플을 여러 날에 걸쳐 측정하면 측정 일자가 가장 큰 분산 원인이 될 수 있음.

방지:

무작위 순서로 측정 (모든 그룹 매 batch에 분포)
QC 샘플 (pool)을 매 batch에 포함
분석 단계에서 ComBat, limma::removeBatchEffect 사용

2. Carryover (이전 샘플 잔여)

이전 샘플의 단백질이 다음 컬럼 측정에 남음. 풍부한 단백질 측정 후 미량 샘플 측정 시 큰 문제.

방지:

Sample 사이에 wash injection (10-15min)
농도 낮은 순서로 측정

3. Contamination — Keratin, Trypsin 자가소화

Keratin (피부, 머리카락): 가장 흔한 contamination. 모든 작업 장갑 + 후드에서, 컨택트 렌즈 만지지 말기
Trypsin autolysis: 트립신 자체 펩티드. analysis에서 cRAP database 사용해 제외

4. 결측 데이터 잘못 다루기

DDA에서 결측치는 정량 분석을 심각하게 왜곡할 수 있음. "그냥 0으로" 처리는 금지. 항상 imputation 방법을 명시하고 결과의 sensitivity 검증.

5. ID = Quantification 아님

"단백질이 검출됐다"와 "정량적으로 비교 가능"은 다름. peptide intensity가 낮은 단백질은 noise가 커서 fold change가 신뢰 안 됨. min 2 peptides + intensity threshold 필터링 권장.

단일세포 프로테오믹스 (Single-Cell Proteomics, SCP)

2026년 가장 빠르게 발전 중인 영역.

기술 현황

timsTOF SCP (Bruker): 한 셀에서 1,500-3,000 단백질 검출
Orbitrap Astral (Thermo): 비슷한 깊이, throughput 강점
DIA-PASEF + SCP 워크플로: 표준화 진행 중

핵심 도구

OAD/CellenONE: 세포 분리 + dispensing 자동화
iST mini: 마이크로 샘플 준비
DIA-NN + library-free: 분석

응용

종양 heterogeneity 분석 (어떤 세포 클러스터가 약물 저항?)
면역세포 활성화 상태 비교
발생학 — 세포 분화 시점별 단백질 변화

한계

분석 시간 길음 (60-120min per cell)
비용 (한 실험 수천 달러)
데이터 분석 워크플로 아직 표준화 진행 중

프로테오믹스 vs 다른 오믹스 — 언제 무엇을 쓰나

질문	추천 오믹스
"어떤 유전자가 발현?"	RNA-seq
"단백질 수준은 어떻게 변하나?"	Proteomics (RNA와 ~40% 일치)
"어떤 단백질 활성/수정?"	Phospho-proteomics, PTM 분석
"대사 상태는?"	Metabolomics
"공간적 어디서 일어나나?"	Spatial proteomics / IMC
"어느 세포에서?"	Single-cell RNA-seq → Single-cell proteomics

핵심: RNA 발현과 단백질 수준은 약 40-60%만 일치 (Vogel & Marcotte, 2012). 단백질 변화를 알고 싶으면 단백질을 측정해야 한다.

자주 묻는 질문 (FAQ)

Q: DIA vs DDA 어떤 걸 시작해야 하나요? 2026년 신규 프로젝트라면 DIA가 디폴트. 정량 재현성과 missing value 처리에서 압도적 우위. DDA는 spectral library 구축, novel PTM 발견 등 특수 목적용.

Q: TMT 16-plex가 좋다는데 무조건 TMT 써야 하나요? 샘플 수가 16개 이하 + 정확한 비교 필요시 좋음. 30+ 샘플 대규모 코호트는 DIA-LFQ가 더 경제적 + 분석 단순. 또한 TMT는 ratio compression(낮은 fold change 더 낮게 측정) 문제 있어 SPS-MS3 모드 필요.

Q: 한국에서 LC-MS/MS 프로테오믹스 분석 받으려면? 주요 위탁 기관:

한국기초과학지원연구원(KBSI): 전국 5개 센터, 학술 단가
마크로젠: 산업 단가, 빠른 turnaround
테라젠바이오: 일부 패널
각 대학 코어 시설: 서울대, KAIST, POSTECH 등 — 학내 사용자 우대

가격 (60min 그라디언트 DDA/DIA 1샘플): 학술 8-15만원, 산업 20-40만원. TMT는 추가 시약비.

Q: 결과 받아도 해석을 어떻게 해야 할까요?

PCA로 샘플 분리 확인 (전혀 안 분리되면 실험 자체 재검토)
Volcano plot으로 흥미로운 단백질 후보 추출
STRING, Reactome, GO enrichment 로 functional context
Top 후보 5-10개 → Western blot / ELISA validation
가설 검증 실험 설계

💡 다음 단계: Biomarker Discovery 실무 가이드에서 후보 단백질을 임상 biomarker로 발전시키는 전체 파이프라인을 다룹니다.

Q: AI/LLM 도구를 분석에 활용할 수 있나요? 가능한 영역:

Spectral library 예측 (Prosit, AlphaPept): 검증된 효과
Retention time 예측: DeepRT 등
결과 보고서 자동 작성: 보조 도구로 OK, 단 통계 결과 해석은 신중 (AI가 프로테오믹스 리포트를 쓸 수 있을까 참조)

위험 영역:

LLM에 statistical decision 위임 (현재 정확도 부족)
Raw spectrum 해석 (hallucination 위험)

Q: PTM (post-translational modification) 분석은 어떻게?

인산화 (phosphorylation): TiO2 또는 IMAC enrichment + DDA. 표준
글리코실화: HILIC 또는 lectin enrichment + EThcD fragmentation
유비퀴틴화: K-GG remnant antibody + DDA
아세틸화: 항체 기반 enrichment

각 PTM은 별도 sample preparation. 일반 proteomics 결과에서는 PTM 정량이 신뢰 안 됨.

결론 — 2026년 프로테오믹스 핵심 메시지

DIA가 새로운 표준 — 정량 비교 연구는 디폴트로 DIA 선택
무료 도구가 강함 — FragPipe + DIA-NN 조합이 상용 대안
샘플 준비가 가장 중요 — S-Trap 또는 SP3로 일관성 확보
통계는 limma + BH FDR — t-test만으로 끝내지 말 것
단일세포 프로테오믹스 부상 중 — 5년 내 표준화 예상

기술은 빠르게 변하지만 **워크플로의 원칙(좋은 샘플 → 일관된 LC → 적절한 MS 모드 → 통계적으로 올바른 분석)**은 그대로다. 새 도구가 나와도 이 원칙에서 출발하면 길을 잃지 않는다.

관련 글:

참고 문헌:

Cox, J., & Mann, M. (2008). MaxQuant enables high peptide identification rates. Nature Biotechnology, 26, 1367-1372.
Demichev, V. et al. (2020). DIA-NN: neural networks and interference correction enable deep proteome coverage. Nature Methods, 17, 41-44.
Kong, A. T. et al. (2017). MSFragger: ultrafast and comprehensive peptide identification. Nature Methods, 14, 513-520.
Brunner, A. D. et al. (2022). Ultra-high sensitivity mass spectrometry quantifies single-cell proteome changes. Molecular Systems Biology, 18, e10798.