단백질 상호작용 네트워크, 어디서부터 시작해야 할까

단백질 상호작용(Protein-Protein Interaction, PPI) 네트워크는 시스템 생물학의 핵심 도구 중 하나다. 개별 단백질의 기능을 하나하나 따지는 것도 중요하지만, 실제 세포 안에서 단백질은 혼자 일하지 않는다. 수백, 수천 개의 파트너와 복잡하게 얽혀서 신호를 전달하고, 대사를 조절하고, 세포의 운명을 결정한다.

PPI 데이터는 어디서 얻나

Mass spectrometry laboratory for protein analysis

Scientific research equipment in modern laboratory

가장 많이 쓰이는 데이터베이스로는 STRING, BioGRID, IntAct 등이 있다. STRING은 실험적 근거뿐 아니라 텍스트 마이닝, 공동발현, 유전체 맥락 정보까지 종합해서 상호작용 점수를 매겨주기 때문에 초보자가 접근하기 쉽다. 반면 BioGRID는 실험적으로 검증된 상호작용 위주로 수집하고 있어서, 좀 더 보수적인 네트워크를 원할 때 유용하다.

실험적으로는 **Yeast Two-Hybrid(Y2H)**나 Co-immunoprecipitation(Co-IP) 기반 데이터가 전통적으로 많이 쓰여왔고, 최근에는 **AP-MS(Affinity Purification-Mass Spectrometry)**나 BioID/TurboID 같은 근접 표지(proximity labeling) 기술이 대세가 되고 있다. 특히 BioID 계열은 일시적이거나 약한 상호작용까지 잡아낼 수 있어서 기존 방법으로는 놓쳤던 상호작용을 발굴하는 데 강점이 있다.

네트워크 분석, 뭘 봐야 하나

네트워크를 그렸으면 이제 분석할 차례다. 기본적으로 봐야 할 지표들이 있다:

Degree: 각 노드(단백질)에 연결된 엣지의 수. Degree가 높은 단백질은 소위 "허브(hub)"로, 생물학적으로 중요한 경우가 많다.
Betweenness centrality: 네트워크 내 최단 경로에 얼마나 자주 등장하는지를 나타낸다. 이 값이 높은 단백질은 서로 다른 모듈을 연결하는 "병목(bottleneck)" 역할을 한다.
Clustering coefficient: 이웃 노드들끼리 얼마나 밀접하게 연결되어 있는지를 보여준다.
Module detection: MCODE, ClusterONE 같은 알고리즘으로 밀집된 하위 네트워크를 찾아낼 수 있다. 이 모듈들은 보통 특정 생물학적 기능이나 경로에 대응된다.

시각화 도구

Cytoscape는 PPI 네트워크 시각화의 사실상 표준이다. 무료이고, 플러그인 생태계가 풍부해서 거의 모든 종류의 네트워크 분석을 커버할 수 있다. STRING 결과를 Cytoscape로 직접 불러오는 것도 가능하다. 좀 더 프로그래밍 기반으로 접근하고 싶다면 R의 igraph 패키지나 Python의 NetworkX도 좋은 선택이다.

실전 팁

처음 PPI 네트워크를 다뤄보는 사람들이 흔히 하는 실수가 있다. STRING에서 점수 threshold를 너무 낮게 잡아서 노이즈가 잔뜩 섞인 네트워크를 만드는 것이다. 개인적으로는 combined score 700 이상을 권장한다. 또한 네트워크가 너무 크면 해석이 어려워지니까, 관심 있는 유전자 세트를 중심으로 서브네트워크를 추출하는 것이 현실적이다.

PPI 네트워크 분석은 결국 "숲을 보는" 작업이다. 개별 단백질에 매몰되지 않고 전체 시스템의 구조와 취약점을 파악하는 데 초점을 맞추면, 생각지 못한 인사이트를 얻을 수 있다.

📚 참고 데이터베이스: PubMed | UniProt | KEGG | Nature

단백질 상호작용 네트워크, 어디서부터 시작해야 할까

PPI 데이터는 어디서 얻나

네트워크 분석, 뭘 봐야 하나

시각화 도구

실전 팁

관련 읽을거리

관련 글

Network Biology: Understanding Protein-Protein Interactions