바이오마커

바이오마커 발굴, 통계적으로 제대로 하려면

오믹스 데이터에서 바이오마커를 발굴할 때 빠지기 쉬운 통계적 함정과 올바른 접근법을 정리했다.

·6 min read
#biomarker#statistical analysis#clinical research#proteomics

바이오마커 발굴은 오믹스 연구의 가장 인기 있는 응용 중 하나다. 하지만 "이 유전자가 바이오마커"라고 논문에 쓰는 것과 실제로 임상에서 쓸 수 있는 바이오마커를 개발하는 것은 완전히 다른 차원의 문제다. 통계적으로 견고한 바이오마커 발굴을 위해 짚어봐야 할 핵심 포인트를 정리한다.

문제 정의부터 명확히

Laboratory scientist analyzing protein samples with mass spectrometry equipment

Protein structure visualization for proteomics research

바이오마커라고 다 같은 바이오마커가 아니다. 크게 세 가지로 나뉜다:

  • 진단 바이오마커(diagnostic): 질병 유무를 구분한다. 민감도와 특이도가 핵심 지표.

  • 예후 바이오마커(prognostic): 질병의 경과를 예측한다. 생존 분석과 연계된다.

  • 예측 바이오마커(predictive): 특정 치료에 대한 반응을 예측한다. 치료 그룹 간 상호작용 효과를 봐야 한다.

어떤 종류의 바이오마커를 찾느냐에 따라 통계 방법과 실험 설계가 달라지므로, 시작 전에 목적을 명확히 해야 한다.

다중 검정 보정

오믹스 데이터에서 수천~수만 개의 피처를 동시에 검정하면, 순전히 우연에 의한 false positive가 대량으로 나온다. p-value 0.05 기준으로 2만 개 유전자를 검정하면 1,000개가 우연히 유의하게 나올 수 있다. FDR(False Discovery Rate) 보정은 선택이 아니라 필수다. Benjamini-Hochberg 방법이 가장 널리 쓰인다.

과적합의 함정

바이오마커 발굴에서 가장 흔한 실수는 같은 데이터셋에서 마커를 발굴하고 성능을 평가하는 것이다. 이러면 과적합 때문에 성능이 부풀려진다. 반드시 독립적인 검증 코호트에서 재현성을 확인해야 한다.

교차 검증(cross-validation)을 쓰더라도, 피처 선택이 교차 검증 루프 안에 들어가야 한다. 전체 데이터에서 피처를 고른 뒤 교차 검증을 하면 정보 누수가 일어나서 성능이 과대평가된다. 이 실수를 하는 논문이 아직도 많다.

효과 크기와 샘플 사이즈

통계적으로 유의하다고 해서 생물학적으로 의미 있는 것은 아니다. p-value만 보지 말고 **효과 크기(effect size)**를 반드시 확인해야 한다. fold change가 1.1배인 마커는 통계적으로 유의하더라도 실용적 가치가 낮을 수 있다.

또한 샘플 사이즈가 충분한지도 중요하다. 파워 분석(power analysis)을 통해 필요한 샘플 수를 사전에 추정하는 습관을 들이자. 오믹스 데이터의 경우 ssize.fdr 같은 R 패키지가 도움이 된다.

ROC 분석과 보고

진단 바이오마커의 성능을 평가할 때는 ROC 곡선AUC가 표준이다. 다만 AUC만 보고하지 말고, 임상적으로 의미 있는 민감도나 특이도 수준에서의 성능도 함께 제시하는 것이 좋다. AUC 0.85가 좋아 보여도, 실제 의사결정 기준점(cutoff)에서의 성능이 부족할 수 있다.

결국 좋은 바이오마커 연구는 화려한 기법이 아니라, 기본에 충실한 통계 설계에서 나온다. 가설을 세우고, 적절한 코호트를 모으고, 독립 검증을 하고, 투명하게 보고하는 것. 지루하지만 이게 정도다.

📚 참고 데이터베이스: PubMed | UniProt | Nature


관련 읽을거리