멀티오믹스 통합 분석: 데이터를 합치면 보이는 것들
멀티오믹스 통합 분석의 개념, 주요 접근법, 실전 도구를 정리했다. 여러 오믹스 데이터를 합치면 왜 다른 결론이 나오는지 살펴본다.
유전체, 전사체, 단백질체, 대사체 데이터를 각각 분석해서 나오는 결과와, 이것들을 통합해서 분석하면 나오는 결과는 질적으로 다르다. 각 오믹스 층(layer)은 생물학적 시스템의 일부만 보여주기 때문이다. 멀티오믹스 통합 분석은 이 조각들을 맞추어 전체 그림을 그리려는 시도다.
왜 통합이 필요한가
간단한 예를 들어보자. RNA-seq에서 특정 유전자의 발현이 올라갔다고 하자. 그런데 단백질 수준에서는 변화가 없을 수도 있다. 번역 후 조절이나 단백질 분해 속도가 달라졌기 때문이다. 여기에 대사체 데이터까지 보면, 해당 경로의 최종 산물이 실제로 늘어났는지 줄어들었는지를 확인할 수 있다. 한 가지 오믹스만 보고 내린 결론이 완전히 뒤집어질 수도 있다는 얘기다.
통합 분석의 접근법
멀티오믹스 통합은 대략 세 가지 수준에서 이루어진다:
-
연결 기반(concatenation-based): 가장 단순한 방법으로, 여러 오믹스 데이터를 하나의 매트릭스로 합친 뒤 PCA나 클러스터링을 수행한다. 구현은 쉽지만 각 데이터의 스케일 차이나 노이즈 구조를 제대로 반영하지 못한다.
-
상관 기반(correlation-based): 서로 다른 오믹스 층 간의 상관관계를 분석한다. 전사체-단백질체 간 상관, 단백질체-대사체 간 상관 등을 보면 조절 관계를 추론할 수 있다.
-
모델 기반(model-based): 베이지안 네트워크, 인수분해 모델, 딥러닝 등을 활용해서 여러 오믹스 데이터를 통합하는 잠재 변수(latent variable)를 학습한다. **MOFA(Multi-Omics Factor Analysis)**가 대표적이다.
실전 도구
현재 가장 활발하게 쓰이는 멀티오믹스 통합 도구들을 정리하면:
-
MOFA2: 여러 오믹스 데이터에서 공유되는 변동 요인을 추출한다. R과 Python 모두 지원하고, 단일세포 멀티오믹스에도 적용 가능하다.
-
mixOmics: R 기반으로 sPLS, DIABLO 같은 다변량 통합 분석 방법을 제공한다. 시각화도 깔끔하다.
-
OmicsAnalyst: 웹 기반으로 멀티오믹스 통합을 할 수 있는 플랫폼. MetaboAnalyst를 만든 Xia 그룹의 작품이다.
-
iCluster: 암 서브타입 분류에 특화된 통합 클러스터링 방법으로, TCGA 프로젝트에서 많이 활용되었다.
주의할 점
멀티오믹스 통합이 만능은 아니다. 우선 각 오믹스 데이터의 품질이 확보되어야 한다. 쓰레기를 합쳐봤자 더 큰 쓰레기가 나올 뿐이다. 또한 시료 매칭이 완벽해야 한다. 같은 환자, 같은 시점, 같은 조직에서 추출한 시료가 아니면 통합의 의미가 퇴색된다.
그럼에도 멀티오믹스 통합은 시스템 생물학의 가장 중요한 방향 중 하나다. 단일 오믹스 시대는 끝나가고 있고, 앞으로는 데이터를 얼마나 잘 통합하느냐가 연구의 경쟁력을 좌우할 것이다.
관련 읽을거리
- 💊 비타민D 부족이 만성피로의 원인? 혈액검사로 확인하세요 — Genobalance
- 🧠 AI가 뇌 영상을 분석하는 시대: 신경과학에서의 딥러닝 — K-Brain Map
- 💻 AI 기술 동향: 핫 스타트업부터 윤리적 논쟁까지 — BRIC