AI/ML

생물정보학에서 머신러닝, 어디까지 왔나

생물정보학에서 머신러닝의 현주소를 점검한다. 성공한 영역, 발전 중인 영역, 그리고 피해야 할 함정까지.

·6 min read
#machine learning#AI#systems biology#deep learning#bioinformatics

머신러닝(ML)이 생물정보학을 바꾸고 있다는 말은 이제 진부하게 느껴질 정도다. 하지만 실제로 현장에서 ML이 얼마나 쓰이고 있고, 어떤 문제에서 진짜 효과가 있는지를 냉정하게 짚어볼 필요가 있다.

이미 자리 잡은 영역

Artificial intelligence algorithms for biological data analysis

Machine learning model training on biomedical datasets

ML이 생물정보학에서 가장 확실하게 성공한 분야는 서열 분석이다. 유전자 예측, 스플라이싱 사이트 예측, 프로모터 인식 같은 서열 기반 문제는 전통적으로 HMM(Hidden Markov Model)이 잘 풀어왔고, 최근에는 CNN이나 Transformer 기반 모델이 이를 넘어서고 있다.

단백질 구조 예측은 AlphaFold2가 모든 것을 바꿔놓았다. 이건 ML의 성공 사례라기보다 혁명에 가깝다. 50년 묵은 문제를 사실상 풀어버렸으니까. AlphaFold3는 단백질-리간드, 단백질-핵산 복합체 구조까지 예측 범위를 넓히고 있다.

**변이 해석(variant interpretation)**에서도 ML이 큰 역할을 하고 있다. CADD, REVEL, AlphaMissense 같은 도구들이 미스센스 변이의 병원성을 예측하는 데 쓰이고, 임상 유전체학에서 실질적인 의사결정에 기여하고 있다.

한창 발전 중인 영역

단일세포 분석에서 ML은 세포 타입 분류(annotation), 궤적 추론(trajectory inference), 배치 효과 보정 등에 광범위하게 활용된다. scVI, scANVI 같은 변이형 오토인코더(VAE) 기반 모델이 대표적이다.

약물 반응 예측약물-타겟 상호작용 예측에도 그래프 신경망(GNN)이 적극 도입되고 있다. 분자 구조를 그래프로 표현하고, GNN으로 특성을 학습하는 접근이 기존 분자 기술자(molecular descriptor) 기반보다 나은 성능을 보이는 경우가 늘고 있다.

주의해야 할 함정

생물정보학에서 ML을 쓸 때 가장 경계해야 할 것은 **과적합(overfitting)**과 **데이터 누수(data leakage)**다. 생물학 데이터는 보통 샘플 수가 적고 피처 수가 많아서 과적합이 쉽게 일어난다. 교차 검증을 제대로 하지 않거나, 테스트 데이터가 훈련 데이터와 상관된 경우(같은 환자의 여러 시료 등) 성능이 부풀려질 수 있다.

또한 ML 모델의 **해석 가능성(interpretability)**도 중요하다. 블랙박스 모델이 높은 예측 성능을 보여도, 왜 그런 예측을 하는지 설명할 수 없으면 생물학적 인사이트를 얻기 어렵다. SHAP, attention weight 분석 등 해석 도구를 반드시 함께 활용해야 한다.

대형 언어 모델(LLM)의 등장

요즘 가장 뜨거운 주제는 생물학 특화 LLM이다. ESM-2(단백질 언어 모델), DNABERT, Geneformer(단일세포 기반 모델) 등이 대표적이다. 이 모델들은 대량의 생물학 서열이나 데이터로 사전 학습되어 있어서, 적은 양의 레이블 데이터로도 다양한 다운스트림 태스크에 적용할 수 있다.

ML은 이미 생물정보학의 필수 도구가 됐다. 다만 도구는 도구일 뿐, 생물학적 질문이 먼저이고 방법론은 그 다음이라는 원칙은 변하지 않는다.

📚 참고 데이터베이스: PubMed | Nature


관련 읽을거리

관련 글