로고

로고

Research

연구 정보

Research Project (승인과제목록)

KNN 연구 요약서

Title Early postnatal predictors of intraventricular hemorrhage using machine learning algorithms in very low birth weight infants: Analysis of a Korean Neonatal Network Database
Author 김현호, 김진규
작성자 김현호
Background 빅데이터를 분석할 수 있는 기술이 발달함에 따라 다양한 분야에서 머신러닝(Machine learning)과 딥러닝(Deep learning)과 같은 인공지능(AI)을 이용한 분석과 활용이 증가하였다. 최근, 의학연구분야에서도 기존의 빅데이터를 활용한 AI 분석이 시도되고 있다. 한국 신생아 네트워크에 등록된 극소 저체중 출생아의 데이터는 국가 단위의 빅데이터임에도 불구하고, 기존에 연구에서는 전통적인 통계분석 방법이 분석에 사용되었고, 머신러닝이나 딥러닝과 같은 빅데이터 분석 기법의 시도가 많지 않았다. 머신러닝 알고리즘은 이해하기가 쉽고 정형화된 형태로 제공되며, 특히 파이썬 (Python) 프로그래밍에서는 쉽게 따라할 수 있는 패키지 형태로 제공이 되어 분석과 해석이 용이하다. 2019년도 뇌실내출혈(IVH) 진단은 전체 극소 저체중 출생아(VLBWI)의 41.5%가 발생하였으며, IVH 환자 가운데 3기 이상은 63.7%를 차지하였다. 특히 뇌실내출혈은 생후 초기에 발생의 빈도가 높아 생후 초기의 환자 상태의 파악과 적절한 케어 및 질환 예방이 필요하다. 현재까지 KNN을 이용한 뇌실내출혈에 대한 연구에서는 초기(2013-2014)의 데이터로 전통적 통계분석 기법인 로지스틱 회귀분석을 이용해 분석하였고, 최근 5년내 KNN데이터를 이용한 IVH에 대한 연구가 많지 않아서 관련인자에 대한 분석과 연구가 필요한 상태이다. 이번 연구에서는 한국의 신생아의 대표적인 빅데이터인 KNN의 극소 저체중 출생아의 데이터를 이용하여 머신러닝 알고리즘을 이용하여 예측 모델을 제시하고 기존의 통계분석 방식인 로지스틱 회귀분석의 결과와 비교하고자 한다.
Aim / Hypothesis 이번 연구에서는 머신러닝 알고리즘을 이용하여 극소저체중출생아에서 생후 초기 1달 이내에 발생할 수 있는 질환과 상태를 포함하여 뇌실내출혈 위험 인자를 분석하고 기존의 통계분석 방식인 로지스틱 회귀분석의 결과와 비교하고자 한다. 1) 머신러닝과 로지스틱 회귀분석을 통한 뇌실내출혈 예측 모델을 구한다. 2) 머신러닝과 로지스틱 회귀분석의 예측인자의 중요도를 구한다.
Inclusion Criteria 극소저체중출생아로 출생하여 한국 신생아 네트워크에 등록된 환자 (출생 몸무게 1500g 미만)
Exclusion Criteria 선천성 기형을 진단받은 환자, 입원 기간동안 뇌초음파를 시행하지 않은 환자
Study Design Statistical methods 1) 데이터 구분(Splitting) 훈련 세트(2013-2019, 80%)와 테스트 세트(2010-2021, 20%)로 구분한다. 2) 분류(Classification)를 위한 알고리즘을 훈련 세트에 적용 분석 항목 Outcome: Primary – 심한 뇌실 내 출혈(3,4기) / Secondary – 출혈 후 수두증 Features: Baseline eCRF 항목 머신러닝 알고리즘 - Logistic Regression, K-nearest neighbor (KNN), Decision tree, Random Forest - Random Forest and gradient boosted decision tree (GBDT) - Extreme greatest boost (XGB), Support vector machine (SVM) 등 3) 훈련 세트를 이용한 예측 모형 및 예측 인자의 평가 - AUC, Accuracy, Odd ratio, Rank of the importance of variable 등 4) 예측 모형을 테스트 세트에 적용하여 평가: AUC, Accuracy
Primary Outcomes 입원 기간 동안 심한 뇌실내출혈(3기 이상) 진단 유무
Secondary Outcomes and Definitions 출생 후 입원기간 동안 수두증 진단 유무
Protocols 1. 로지스틱 회귀분석과 머신러닝 알고리즘의 뇌실내출혈 예측 모델 비교 - 뇌실내출혈의 위험인자와 한달 이내의 임상소견 및 질환을 이용한 로지스틱 회귀분석으로 예측 인자와 예측 모델 구하기 2. 예측 모델의 평가 - AUC (Sensitivity, Specificity, PPV), Accuracy, F1 score 3. 예측인자의 중요도 비교 - 로지스틱 회귀분석: Odd ratio, Coefficient value 등 - 머신러닝 알고리즘의 Rank of importance of variable 등
Funding 없음