Ex) Article Title, Author, Keywords
Ex) Article Title, Author, Keywords
HIRA Research 2021; 1(2): 196-207
Published online November 30, 2021
https://doi.org/10.52937/hira.21.1.2.196
© Health Insurance Review & Assessment Service
조상아1, 김한상2
1건강보험심사평가원 심사평가연구소, 2국민건강보험공단 의료기관지원실
1Health Insurance Review and Assessment Research Institute, Health Insurance Review and Assessment Service; 2Department of Healthcare Institution Support, National Health Insurance Service, Wonju, Korea
Correspondence to :
Hansang Kim
Department of Healthcare Institution Support, National Health Insurance Service, 32 Geongang-ro, Wonju 26464, Korea
Tel: +82-33-736-4421
Fax: +82-33-749-6395
E-mail: yoonkim0423@gmail.com
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Background: Healthcare studies mainly use statistical methodologies, but recently, with the development of artificial intelligence (AI) technology, studies to solve the limitations of some existing methodologies are being published. This study aims to suggest a strategy for using AI technology in the future by reviewing existing research and research cases of the last 10 years using artificial intelligence technology.
Methods: We selected research papers and domestic and international journal papers by the Health Insurance Review and Assessment Service since 2010. Health insurance claim data were divided into 'cross-sectional study', 'association and comparative analysis of specific factors', and 'longitudinal cross-sectional, time series analysis study'.
Results: Four situations requiring AI technology were defined, and AI methodologies applicable to each situation were presented.
Conclusion: It is judged that it is necessary to actively discuss more specific situations and various methodologies for the use of big data in health care.
Keywords: Big data, Healthcare, Health Insurance Review & Assessment Service, Artificial intelligence
보건의료 빅데이터는 급변하는 환경에서 사회적 문제 및 변화에 대한 예측과 해결방안 마련을 위한 근거자료 제공 등 다양한 목적으로 활용되고 있다. 대표적인 보건의료 빅데이터로는 건강보험 청구자료가 있는데, 이는 전 국민이
건강보험 청구데이터에 포함 정보는 기본적인 환자와 요양기관을 식별할 수 있는 고유번호와 환자의 진단명, 진료과목, 진료일(진료시작일, 입·내원일수 등), 진료비 등에 대한 정보 및 상세적인 진료, 검사, 시술, 수술, 처치 등의 진료내역이 포함되어 있다. 청구데이터는 표본자료가 아닌 전수 자료로 제한된 환경이 아닌 현실적인 보건의료환경을 반영하고, 단면적연구와 코호트 연구가 모두 가능한 데이터이다. 현재 보건의료정책 근거자료 생성, 보건의료분야의 다양한 연구 및 의료계 및 산업계의 연구개발(research and development, R&D)에 이용되고 있다. 그간 청구데이터를 이용한 분석연구는 크게 단면적 분석 중심의 현황 및 추세분석연구[2,3], 특정 요인에 대한 설명(영향) 및 비교분석연구[4–6], 과거 정보를 고려한 종단면, 시계열 분석[7–9]으로 구분할 수 있고 주로 통계적 방법이 이용되었다.
통계적 방법은 현상을 선형적 관계 기반으로 간결하게 설명하는 데 강점이 있어 주로 사용되었지만, 비선형적 복잡 정보의 설명 및 예측에는 제한이 존재한다[10–12]. 최근 이런 통계적 방법론들의 한계를 보완하기 위해 보건의료 빅데이터에 인공지능(artificial intelligence) 기술을 활용하는 연구들이 국외에서 발표되고 있다[13,14]. 기존 방법론의 주요 제한점으로는 비선형적 복잡 정보에 대한 모델링 제한, 텍스트 정보 활용 시 발생되는 고차원화 문제, 불규칙한 과거 정보의 반영 등이 있다. Goldstein 등[11]은 보건의료 데이터 기반 예측연구들에서 선형적 관계 중심의 전통적 방법론보다 머신러닝(machine learning) 방법이 상대적으로 많은 정보를 활용하였고 모델 성능도 향상되는 것으로 나타났다. 그리고 최근 인공지능 기법 기반 자연어처리기법을 적용하여 고차원 문제를 해결하는 연구들도 소개되고 있다[15,16]. 보건의료 데이터에서 진료내역(진단명, 처치, 약제 등)은 주요 정보 중 하나이지만, 고차원의 범주(코드) 정보로 기존 방법론으로는 이를 모델에 반영하기엔 제한점이 존재했다.
이 연구는 최근 10년간 건강보험 청구자료를 이용한 27개의 국내외 연구보고서와 논문을 고찰하였다. 자료는 2010년 이후 발표된 건강보험심사평가원 연구보고서와 분석방법이 비교적 상세하게 기록된 국내외 논문을 중심으로 선정하였다. 이를 건강보험 청구자료의 분석관점으로 분류하고자 ‘단면적 현황 및 추세 연구’, ‘특정 요인에 대한 설명(영향) 및 비교분석연구’, ‘과거 정보를 고려한 종단면, 시계열 분석연구’로 구분하였다[2–9,19–37] (표 1).
Table 1 . 주요 연구사례 선정
구분 | 주요 분석기법 | 주요 이용정보 | 연구사례(27개) |
---|---|---|---|
단면적 자료 중심 현황 및 추세분석 | • 현황 및 추세분석: 빈도분석; 유병률, 발병률 산출 | 종별 구분, 환자의 주진단명, 진료과 목, 산정특례코드, 입원 외래 구분, DRG 분류군, 입 내원일수, 진료비, 진료내역(행위, 약제 등), 약효분류 구분, 이용량 등 | 최지숙 등[19] (2018), Kim 등[2] (2017), 한승진 등[3] (2020), 김한상 등[20] (2020), 오동관 등[21] (2015), Park 등[22] (2020), Kim 등 [23] (2021), |
특정 요인에 대한 설명(영향) 및 비교분석연구 | • 요인분석: 상관분석, 선형회귀 분석, 로지스틱회귀분석, 음이항회귀분석 등 • 비교 분석: -test, chi-square test 등 | 종별 구분, 환자의 주진단명, 진료과목, 산정특례코드, 입원 외래 구분, DRG 분류군, 입내원일수, 진료비,진료내역(행위, 약제 등), 약효 분류구분, 이용량 등 | 김동숙 등[4] (2017), Kang 등[5] (2021), 이성우 등[6] (2018), 김동숙 등[24] (2017), 박효성 등[25] (2017), Kim 등[26] (2018), An 등 [27] (2020), Lee 등[28] (2021), Ko 등[29] (2021), Kim 등[30] (2021) |
과거 진료이력 등을 반영한 종단면, 시계열 분석연구 | • 시간을 기준으로 전 후 비교분석: 이중차이분석 • 환자 이동 추적분석: 빈도분석 • 시간을 고려한 예측 및 추세분석: 시계열분석, 포아송 회귀분석, 생존분석 등 | 종별 구분, 환자의 주진단명, 진료과 목, 산정특례코드, 입원 외래 구분, DRG 분류군, 입 내원일수, 진 료비, 진료내역(행위, 약제 등), 약 효분류 구분, 이용량 등 | 민인순 등[31] (2017), 김지애 등[32] (2020), 오주연 등[33] (2020), 이도경 등[7] (2020), 김한상 등[34] (2020), Ryu 등[9] (2021), 박찬미 등[36] (2010), 신민선 등[8] (2020), Lee 등 [35] (2017), Lee 등[37] (2020) |
DRG, diagnosis-related group.
단면적 분석 중심 연구를 살펴보면, 문제점에 대한 해결점을 찾기 위한 현황분석 중심으로 이뤄졌다. 2020년 한승진 등[3]은 의료이용 불균형의 현상 문제를 파악하고, 이를 해결하기 위한 근거자료 마련을 목적으로 2008년에서 2019년 동안 연도별 의료이용현황을 분석하였다. 연도별 의료기관 종별 입·내원일수, 진료비, 중증환자 구성비율, 산정특례환자 수, 신규환자 수 등의 추이를 연도별 증감률 및 연도 내 점유율을 분석하여 의료이용 불균형에 대한 현상을 보여주었다. 2017년 Kim 등[2]은 급성 호흡기계 질환에서 항생제 처방의 경향 및 사용량을 파악하고자 2005년부터 2008년까지 호흡기계 질환을 가진 환자를 대상으로 연도별로 세부 상병에 따른 항생제 계열별 사용량에 대해 분석하였다.
그리고 특정 요인에 대한 설명(영향) 및 비교분석 연구는 청구자료 분석을 통해 특정 요인과 다른 요인 간의 관련성 및 영향을 미치는 요인들을 찾기 위한 목적으로 주로 수행되었다. 2017년 김동숙 등[4]은 항생제 사용에 영향을 미치는 요인을 찾아내기 위해 2011년부터 2015년까지 병원 규모별로 청구자료를 분석하였고, 다중선형회귀분석을 적용하여 내원일수와 항생제 사용의 관련성을 보여주었다. 2021년 Kang 등[5]은 알레르기 비염환자를 대상으로 의과·한의과 간 차이를 비교하기 위해 치료기간 및 치료금액 등을 비교분석하였으며, 이성우 등[6]도 그룹 간의 비교분석과 요인 간의 관련성을 파악하기 위해 회귀분석을 적용하였다.
끝으로 과거 정보를 고려한 종단면, 시계열 분석연구는 환자별 과거 진료이력 정보 등을 활용하여 추적분석과 특정(정책 시행) 시점 전, 후 차이분석 및 시간에 따른 변화 추이를 예측하는 등의 목적으로 수행되었다. 이도경 등[7]은 상급종합병원의 회송환자의 이동경로를 추적하여 회송시범사업의 효과성을 파악하기 위해 2018년 회송환자 관리료가 청구된 환자를 대상으로 2019년 회송 후 상병별, 의료기관 종별 의료이용에 대한 추적결과를 발표하였고, Ryu 등[9]은 정신분열증 환자의 의료이용 추이를 예측하기 위해 2010년부터 2019년까지의 자료로 시계열분석을 수행하였다. 또한 신민선 등[8]은 코로나19 유행기간의 사망과 의료이용량의 변화를 예측하기 위해 2010년부터 2020년 9월까지의 청구자료로 포아송 회귀모형을 이용하여 사망자 수 또는 의료이용의 변화를 예측하여 발표하였다.
2) 분석 제한점최근 현상의 이해 중심의 분석방법론뿐만 아니라 빅데이터 기반 복잡한 정보들을 학습하고, 이를 통해 특정 현상을 예측하는 방법들에 대한 방법론에 대해서도 많은 연구가 이루어지고 있다. 예측관점에서 통계적 방법론 중심 건강보험 청구자료 분석은 비선형적인 복잡한 정보, 텍스트 정보
앞서 고찰한 연구들의 분석모델을 살펴보면 주로 20여 개의 적은 정보 중심으로 특정 현상 및 문제를 설명하였다[2–9,19–33,35–37] (표 2). 비교적 복잡하지 않은 현상 및 문제를 설명하고자 할 때 설명이 쉬운 통계적 방법론은 좋은 선택일 수 있지만 보다 복잡한 상황에서는 선형성 등 기본가정을 만족시키기 어렵고, 실제 비선형적 복합관계를 가지므로 설명(예측)모델의 성능을 담보하기 어렵다.
Table 2 . 청구데이터 내 정보 활용현황
연구사례 | 보유 정보 | 이용현황 | 연구사례 |
---|---|---|---|
기본 정 (약 230개) | • 일자 정보: 요양개시일자, 요양종료일자 등 • 요양기관 정보: 요양기관기호 및 종별 코드 등 • 수진자 정보: 수진자 개인식별번호, 보험자 구분코드 등 • 상병 정보: 주상병코드, 부상병코드 등 • 기타 코드정보: 지급구분코드, 서식구분코드 등 • 지표 정보: 명세서 CI • 일수 정보: 내원일수, 원외처방일수 등 • 이용량: 원외처방전건수, 원내처방약품수 등 • 금액 정보: 심사결정요양급여비용총액금액 등 • 기타 정보: 심사부서코드, 적재일시 등 | 약 20개 | 한승진 등[3] (2020), 김한상 등[20] (2020), 최지숙 등[19] (2018), 박찬미 등[36] (2010), Kang 등[5] (2021), 김동 숙 등[4] (2017), 오동관 등[21] (2015), 김지애 등[32] (2020), 이성우 등[6] (2018), 김지애 등[2] (2017), 민인 순 등[31] (2017), 오주연 등[33] (2020), 신민선 등[8] (2020), 이도경 등[7] (2020), Ryu 등[9] (2021), Kim 등 [30] (2021), Park 등[22] (2020), Kim 등[23] (2021), 박 효성 등[25] (2017), Lee 등[35] (2017), Kim 등[26] (2018), An 등[27] (2020), Lee 등[28] (2021), Ko 등[29] (2021) |
상세 정보 (약 200개) | • 상세진료내역: 서식구분코드, 항목코드, 통합분류코드, 약효분류번호구분코드 등 • 세부이용량: 총투여일수 실시횟수, 총사용량 실시횟수 등 • 세부금액 정보: 산출단가, 기본담가, 인정금액, 조정금액 등 • 기타 정보: 약품규격명, 약효분류번호, 적재일시 등 • 상병 정보(상세): 주상병코드, 부상병코드, 상병기호 등 • 특정 내역 정보: 특정 내역코드(상세) 등 | 약 20개 | 박찬미 등[36] (2010), 김지애 등[2] (2017), 김동숙 등[4] (2017), 오동관 등[21] (2015), 이성우 등[6] (2018), 오 주연 등[33] (2020), 이도경 등[7] (2020), Lee 등[37] (2020), Kim 등[23] (2021), 박효성 등[25] (2017), Lee 등[35] (2017), Kim 등[26] (2018), An 등[27] (2020), Lee 등[28] (2021), Park 등[22] (2020), Kim 등[23] (2021), Ko 등[29] (2021), 박찬미 등[36] (2010), 김지애 등[2] (2017), 김동숙 등[24] (2017), Lee 등[35] (2017), 김지애 등[32] (2020), 신민선 등[8] (2020) |
그리고 대부분 연구에서 설명변수로 연속형 변수와 범주가 작은 이산형 변수
건강보험 청구자료의 정보는 기본적으로 환자가 요양기관을 방문해 진료를 받을 때 발생된다. 즉 정보의 발생시점이 불규칙하다. 이런 불규칙 시점 정보와 복잡한 정보들의 반영 등의 어려움으로 인해 국내 연구에서 종단면 및 시계열 분석 활용성이 적었는데, 이런 경향은 해외에서도 비슷하게 나타났다. Goldstein 등[11]은 전자건강기록(electronic health record, EHR) 데이터를 이용한 분석연구들을 검토하였는데, 여기서도 대부분의 연구들이 시간(혹은 반복측정)이 고려되지 않은 것으로 나타났다.
앞서 언급된 통계적 방법론의 특정 제한점을 개선하고자 다양한 인공지능 방법들이 연구되었다. 본 장에서는 인공지능 방법론에 대해 간단히 소개하고 활용사례를 정리하였다.
1) 인공지능 방법론(1) 심층신경망
딥러닝은 기계학습의 인공신경망(artificial neu-ral network)을 다중(심층)으로 연결한 모델로 하나의 인공신경망은 여러 정보들을
(2) 단어 임베딩
딥러닝 기술이 발전함에 따라 자연어처리(natural language processing) 분야에서도 이에 기반한 연구가 활발히 진행되고 있고, 많은 성과를 보이고 있다[38]. 특히 단어 임베딩(word embedding)에서 큰 성과를 보였는데, 이는 주변 단어들의 분포에 기반하여 단어들의 유사도를 계산하고, 이를 n차원 벡터로 매핑시키는 기법이다. 이는 “유사한 분포를 가지는 언어항목(linguistic items)은 유사한 의미를 나타내는 경향이 있다”라는 언어학의 ‘distributional hypothesis’에 기반한다[39]. 단어 임베딩 기법을 통해 고차원의 텍스트 정보를 저차원으로 벡터화할 수 있고, 벡터 간의 수학적 연산을 통해 유사도를 계산할 수 있다[40] (그림 2). 이를 데이터 기반 모델링 관점으로 확장하면, 고차원화의 문제로 인해 적용할 수 없었던 범주형 변수를
(3) 순환신경망
순환신경망(recurrent neural network)은 과거 및 시퀀스(sequence) 정보 등을 학습하기 위한 인공신경망이다. 입력층, 은닉층, 출력층 외 메모리 셀이 있어 이후 시점에 과거 정보를 반영하는 역할을 하게 된다[41] (그림 4). 그리고 순환신경망의 장기 의존성 문제
(4) SHAP
Shapley additive explanation (SHAP)은 복잡한 예측모형에서의 원인에 대한 설명 등에 대한 제한(black-box)을 해결하기 위해 개발된 방법이다. SHAP을 통해 모든 독립변수들의 조합들이 모델에 미치는 영향을 수치화하여 예측결과에 대한 각 특성들의 기여도를 계산할 수 있다.
2) 해외 보건의료분야 인공지능 방법론 활용사례최근 보건의료분야에서 다양한 딥러닝 분석기법을 활용한 연구가 발표되었는데, 이 중 청구자료 및 EHR 데이터를 이용하여 심층, 순환신경망 및 딥러닝 기반 단어 임베딩 기법을 사용한 연구들이 많은 비중을 차지하고 있다.
2016년 Choi 등[14]은 1년 동안 한 환자에게서 발생되는 행위코드, 약제코드, 국제질병사인분류코드, 진단검사코드를 하나의 문장으로 정의하여 단어 임베딩 기법을 적용하였고, 도출된 벡터값에 기반하여 코드 간의 유사도를 계산하였다. Choi 등[14], Che 등[16], Nagata 등[15], Jin 등[17]도 EHR 및 청구자료, 건강검진 자료 내 행위, 약제 코드, 진단검사코드의 조합들을 문장으로 정의하였고, 단어 임베딩 기법을 이용해 100-200개의 벡터로 매칭하였다. 그리고 이를 질환 발생(심부전, 당뇨) 예측 모델링의 설명변수로 활용하여 예측의 정확도를 향상시켰다. Zhang 등[18]은 EHR 자료에서 환자의 진료에서 발생된 코드 내역들을 이용해 환자단위 시계열 예측모델인 Patient2Vec을 제안하였고, 이를 이용해 조기 재입원을 예측한 결과 기존 시계열모형보다 예측정확도가 높게 나타났다.
통계적 모델링 방법은 선형성 가정 기반 간결하게 현상을 설명하고 해석하는 데 강점이 있지만, 정보가 복잡할수록 설명(예측)모델의 적합에 문제가 발생된다. 특히 예측의 관점에서는 정확도를 위해 복잡하고, 충분한 정보의 활용이 필요하여 활용이 어렵다. 반면, 인공지능 기반 모델링 방법은 복잡하고 방대한 정보에서 패턴을 찾는 것에 강점이 있어 예측분석에 주로 활용된다. 그러나 통계적 모델링보다 현상 등 결과의 해석이 어렵다는 제한점
첫 번째, 모델의 목적이 예측이라면 인공지능 방법론 적용 검토가 필요하다. 일반적으로 예측의 경우 많은 정보의 조합을 통해 패턴을 학습하게 되므로 선형관계 중심인 통계적 방법론보다 일반적으로 좋은 성능을 보인다. 두 번째, 예측(또는 설명)하고자 하는 종속변수가 복잡한 인과관계를 가질수록 인공지능 방법론의 적용 검토가 필요하다. 예를 들어, 질병예측모델을 만든다고 가정했을 때 타겟이 특정 외래 경증질환일 때 보다 중증질환일 때 과거 진료내역, 환자상태 등 더 많은 요인에 대한 복합적 검토(학습)가 필요하게 된다. 세 번째, 많은 범주를 가진 진료내역 코드 정보를 설명변수로 활용하고자 할 때 인공지능 방법론 적용 검토가 필요하다. 진단명, 처치 및 수술, 검사, 약제처방 등의 진료내역 정보는 텍스트(코드) 정보로, 최소 1,000여 개의 카테고리로 구분된다. 이를 앞서 소개한 인공지능 기반 단어 임베딩 방법을 통해 축소된 N차원 벡터로 매칭이 가능하고, 생성된 벡터값을 통해 각 범주 간 유사도도 계산이 가능해진다. 네 번째, 과거(혹은 이전 시퀀스) 정보의 반영 여부 그리고 이 정보의 활용방법에 따른 검토가 필요하다. 과거 정보를 모델의 설명변수로 활용할 수 있는 방법은 과거 이력을 하나의 정보로 축약하거나 시점별 과거 이력 정보를 있는 그대로 모델에 반영하는 두 가지로 크게 구분된다. 전자의 대표적인 예로 중증도 점수(Charlson comorbidity index 등)를 들 수 있다. 만약 반영할 과거 정보의 패턴이 복잡하거나 축약이 불가능할 경우 인공지능 방법론 적용 검토가 필요하다. 더욱이 앞서 언급한 것처럼 건강보험 청구자료의 정보 발생시점이 불규칙하여 종단면(혹은 시계열) 분석 시 더욱 복잡한 모델링 방법이 필요하다.
보건의료 빅데이터인 건강보험 청구자료는 전체 인구 중 약 98%의 의료이용 정보가 축적되어 있고[1], 이는 보건의료정책 근거자료 생성, 보건의료분야의 다양한 연구 및 의료계 및 산업계의 R&D 개발에 활용되고 있다. 건강보험 청구자료를 이용한 연구들을 정리하면 단면적 분석 중심의 현황 및 추세분석연구, 특정 요인에 대한 설명(영향) 및 비교분석연구, 과거 정보를 고려한 종단면, 시계열 분석연구로 구분할 수 있고, 주로 통계적 방법이 이용되었다. 그러나 복잡 정보, 텍스트 정보, 불규칙 시계열 정보 등의 활용에 있어 선형성, 간결성에 기반한 전통적 모델링 방법으로는 이런 문제점들을 해결하기 어려워 최근 인공지능 기술을 활용하여 이런 문제들을 극복하려는 시도가 지속적으로 이루어지고 있다. 이에 본 연구에서는 기존 국내 연구들을 분석하여 활용범위 및 분석 제한점을 검토하고, 이를 보완할 수 있는 인공지능 기술 활용 전략을 네 가지 관점에서 제안하였다. 이는 국내 보건의료 빅데이터의 활용범위를 확장시키고 4차 산업의 주요 기술인 인공지능 기술 관련 연구의 활성화에 기여할 수 있을 것으로 기대한다.
끝으로, 현재까지 데이터 분석을 위한 다양한 방법론이 개발되었고, 각각의 장점과 제한점이 존재한다. 따라서 연구내용 및 상황에 따라 적정 방법론 선정을 위한 검토는 매우 중요하다. 최근 4차 산업의 주요 기술인 인공지능 기술에 대한 관심이 높아졌는데, 신중한 검토 없이 새로운 기술 도입 시 모델의 성능 측면이나 효율성 측면에서 안 좋은 결과가 발생될 수 있다. 본 연구에서는 큰 틀에서 인공지능 분석기법이 필요한 상황에 대해 정리하였고, 향후 세부적인 필요 분야와 건강보험 청구자료 내 주요 설명변수 및 적정 활용방법 등에 대한 연구 및 논의가 필요하다.
1 건강보험 가입자
2 차원의 저주(curse of dimensionality
3 진료내역(행위, 약제 등) 코드 정보 등
4 기존 분석연구사례에서 범주형 변수의 경우 2–9개 분류를 설명변수로 반영함
5 진단명 약 1,400개(3단 기준), 행위수가코드 약 5만 개
6 독립, 설명변수, input, feature 값 등
7 종속, 결과변수, output, label, target 값 등
8 범주의 개수가 많은 변수
9 기존엔 주로 더미변수(dummy variable), 원핫인코딩(one-hot-encoding)을 사용하였지만, 범주의 개수가 많은 경우 차원의 저주(curse of dimensionality) 문제가 발생되고 각 범주별로 유사도 등을 계산할 수 없었음
10 진단명, 약제, 처치 및 검사내역 등
11 연구에 목적에 따라 문장은 다양하게 정의될 수 있고(예, 환자의 한 방문에서 발생된 진료 정보 코드 묶음), 문장 내 구성은 진단상병, 약제, 처치내역 등의 다양한 조합으로 이루어짐
12 더 먼 과거 정보 혹은 시퀀스일수록 현재 시점 값에 영향을 주지 못하는 문제
13 앞서 소개한 SHAP 등 모델의 해석력을 보완한 방법론들이 개발되고 있지만, 상대적으로 선형관계 중심 모델보다 해석이 복잡함
HIRA Research 2021; 1(2): 196-207
Published online November 30, 2021 https://doi.org/10.52937/hira.21.1.2.196
Copyright © Health Insurance Review & Assessment Service.
조상아1, 김한상2
1건강보험심사평가원 심사평가연구소, 2국민건강보험공단 의료기관지원실
1Health Insurance Review and Assessment Research Institute, Health Insurance Review and Assessment Service; 2Department of Healthcare Institution Support, National Health Insurance Service, Wonju, Korea
Correspondence to:Hansang Kim
Department of Healthcare Institution Support, National Health Insurance Service, 32 Geongang-ro, Wonju 26464, Korea
Tel: +82-33-736-4421
Fax: +82-33-749-6395
E-mail: yoonkim0423@gmail.com
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Background: Healthcare studies mainly use statistical methodologies, but recently, with the development of artificial intelligence (AI) technology, studies to solve the limitations of some existing methodologies are being published. This study aims to suggest a strategy for using AI technology in the future by reviewing existing research and research cases of the last 10 years using artificial intelligence technology.
Methods: We selected research papers and domestic and international journal papers by the Health Insurance Review and Assessment Service since 2010. Health insurance claim data were divided into 'cross-sectional study', 'association and comparative analysis of specific factors', and 'longitudinal cross-sectional, time series analysis study'.
Results: Four situations requiring AI technology were defined, and AI methodologies applicable to each situation were presented.
Conclusion: It is judged that it is necessary to actively discuss more specific situations and various methodologies for the use of big data in health care.
Keywords: Big data, Healthcare, Health Insurance Review & Assessment Service, Artificial intelligence
보건의료 빅데이터는 급변하는 환경에서 사회적 문제 및 변화에 대한 예측과 해결방안 마련을 위한 근거자료 제공 등 다양한 목적으로 활용되고 있다. 대표적인 보건의료 빅데이터로는 건강보험 청구자료가 있는데, 이는 전 국민이
건강보험 청구데이터에 포함 정보는 기본적인 환자와 요양기관을 식별할 수 있는 고유번호와 환자의 진단명, 진료과목, 진료일(진료시작일, 입·내원일수 등), 진료비 등에 대한 정보 및 상세적인 진료, 검사, 시술, 수술, 처치 등의 진료내역이 포함되어 있다. 청구데이터는 표본자료가 아닌 전수 자료로 제한된 환경이 아닌 현실적인 보건의료환경을 반영하고, 단면적연구와 코호트 연구가 모두 가능한 데이터이다. 현재 보건의료정책 근거자료 생성, 보건의료분야의 다양한 연구 및 의료계 및 산업계의 연구개발(research and development, R&D)에 이용되고 있다. 그간 청구데이터를 이용한 분석연구는 크게 단면적 분석 중심의 현황 및 추세분석연구[2,3], 특정 요인에 대한 설명(영향) 및 비교분석연구[4–6], 과거 정보를 고려한 종단면, 시계열 분석[7–9]으로 구분할 수 있고 주로 통계적 방법이 이용되었다.
통계적 방법은 현상을 선형적 관계 기반으로 간결하게 설명하는 데 강점이 있어 주로 사용되었지만, 비선형적 복잡 정보의 설명 및 예측에는 제한이 존재한다[10–12]. 최근 이런 통계적 방법론들의 한계를 보완하기 위해 보건의료 빅데이터에 인공지능(artificial intelligence) 기술을 활용하는 연구들이 국외에서 발표되고 있다[13,14]. 기존 방법론의 주요 제한점으로는 비선형적 복잡 정보에 대한 모델링 제한, 텍스트 정보 활용 시 발생되는 고차원화 문제, 불규칙한 과거 정보의 반영 등이 있다. Goldstein 등[11]은 보건의료 데이터 기반 예측연구들에서 선형적 관계 중심의 전통적 방법론보다 머신러닝(machine learning) 방법이 상대적으로 많은 정보를 활용하였고 모델 성능도 향상되는 것으로 나타났다. 그리고 최근 인공지능 기법 기반 자연어처리기법을 적용하여 고차원 문제를 해결하는 연구들도 소개되고 있다[15,16]. 보건의료 데이터에서 진료내역(진단명, 처치, 약제 등)은 주요 정보 중 하나이지만, 고차원의 범주(코드) 정보로 기존 방법론으로는 이를 모델에 반영하기엔 제한점이 존재했다.
이 연구는 최근 10년간 건강보험 청구자료를 이용한 27개의 국내외 연구보고서와 논문을 고찰하였다. 자료는 2010년 이후 발표된 건강보험심사평가원 연구보고서와 분석방법이 비교적 상세하게 기록된 국내외 논문을 중심으로 선정하였다. 이를 건강보험 청구자료의 분석관점으로 분류하고자 ‘단면적 현황 및 추세 연구’, ‘특정 요인에 대한 설명(영향) 및 비교분석연구’, ‘과거 정보를 고려한 종단면, 시계열 분석연구’로 구분하였다[2–9,19–37] (표 1).
Table 1 . 주요 연구사례 선정.
구분 | 주요 분석기법 | 주요 이용정보 | 연구사례(27개) |
---|---|---|---|
단면적 자료 중심 현황 및 추세분석 | • 현황 및 추세분석: 빈도분석; 유병률, 발병률 산출 | 종별 구분, 환자의 주진단명, 진료과 목, 산정특례코드, 입원 외래 구분, DRG 분류군, 입 내원일수, 진료비, 진료내역(행위, 약제 등), 약효분류 구분, 이용량 등 | 최지숙 등[19] (2018), Kim 등[2] (2017), 한승진 등[3] (2020), 김한상 등[20] (2020), 오동관 등[21] (2015), Park 등[22] (2020), Kim 등 [23] (2021), |
특정 요인에 대한 설명(영향) 및 비교분석연구 | • 요인분석: 상관분석, 선형회귀 분석, 로지스틱회귀분석, 음이항회귀분석 등 • 비교 분석: -test, chi-square test 등 | 종별 구분, 환자의 주진단명, 진료과목, 산정특례코드, 입원 외래 구분, DRG 분류군, 입내원일수, 진료비,진료내역(행위, 약제 등), 약효 분류구분, 이용량 등 | 김동숙 등[4] (2017), Kang 등[5] (2021), 이성우 등[6] (2018), 김동숙 등[24] (2017), 박효성 등[25] (2017), Kim 등[26] (2018), An 등 [27] (2020), Lee 등[28] (2021), Ko 등[29] (2021), Kim 등[30] (2021) |
과거 진료이력 등을 반영한 종단면, 시계열 분석연구 | • 시간을 기준으로 전 후 비교분석: 이중차이분석 • 환자 이동 추적분석: 빈도분석 • 시간을 고려한 예측 및 추세분석: 시계열분석, 포아송 회귀분석, 생존분석 등 | 종별 구분, 환자의 주진단명, 진료과 목, 산정특례코드, 입원 외래 구분, DRG 분류군, 입 내원일수, 진 료비, 진료내역(행위, 약제 등), 약 효분류 구분, 이용량 등 | 민인순 등[31] (2017), 김지애 등[32] (2020), 오주연 등[33] (2020), 이도경 등[7] (2020), 김한상 등[34] (2020), Ryu 등[9] (2021), 박찬미 등[36] (2010), 신민선 등[8] (2020), Lee 등 [35] (2017), Lee 등[37] (2020) |
DRG, diagnosis-related group..
단면적 분석 중심 연구를 살펴보면, 문제점에 대한 해결점을 찾기 위한 현황분석 중심으로 이뤄졌다. 2020년 한승진 등[3]은 의료이용 불균형의 현상 문제를 파악하고, 이를 해결하기 위한 근거자료 마련을 목적으로 2008년에서 2019년 동안 연도별 의료이용현황을 분석하였다. 연도별 의료기관 종별 입·내원일수, 진료비, 중증환자 구성비율, 산정특례환자 수, 신규환자 수 등의 추이를 연도별 증감률 및 연도 내 점유율을 분석하여 의료이용 불균형에 대한 현상을 보여주었다. 2017년 Kim 등[2]은 급성 호흡기계 질환에서 항생제 처방의 경향 및 사용량을 파악하고자 2005년부터 2008년까지 호흡기계 질환을 가진 환자를 대상으로 연도별로 세부 상병에 따른 항생제 계열별 사용량에 대해 분석하였다.
그리고 특정 요인에 대한 설명(영향) 및 비교분석 연구는 청구자료 분석을 통해 특정 요인과 다른 요인 간의 관련성 및 영향을 미치는 요인들을 찾기 위한 목적으로 주로 수행되었다. 2017년 김동숙 등[4]은 항생제 사용에 영향을 미치는 요인을 찾아내기 위해 2011년부터 2015년까지 병원 규모별로 청구자료를 분석하였고, 다중선형회귀분석을 적용하여 내원일수와 항생제 사용의 관련성을 보여주었다. 2021년 Kang 등[5]은 알레르기 비염환자를 대상으로 의과·한의과 간 차이를 비교하기 위해 치료기간 및 치료금액 등을 비교분석하였으며, 이성우 등[6]도 그룹 간의 비교분석과 요인 간의 관련성을 파악하기 위해 회귀분석을 적용하였다.
끝으로 과거 정보를 고려한 종단면, 시계열 분석연구는 환자별 과거 진료이력 정보 등을 활용하여 추적분석과 특정(정책 시행) 시점 전, 후 차이분석 및 시간에 따른 변화 추이를 예측하는 등의 목적으로 수행되었다. 이도경 등[7]은 상급종합병원의 회송환자의 이동경로를 추적하여 회송시범사업의 효과성을 파악하기 위해 2018년 회송환자 관리료가 청구된 환자를 대상으로 2019년 회송 후 상병별, 의료기관 종별 의료이용에 대한 추적결과를 발표하였고, Ryu 등[9]은 정신분열증 환자의 의료이용 추이를 예측하기 위해 2010년부터 2019년까지의 자료로 시계열분석을 수행하였다. 또한 신민선 등[8]은 코로나19 유행기간의 사망과 의료이용량의 변화를 예측하기 위해 2010년부터 2020년 9월까지의 청구자료로 포아송 회귀모형을 이용하여 사망자 수 또는 의료이용의 변화를 예측하여 발표하였다.
2) 분석 제한점최근 현상의 이해 중심의 분석방법론뿐만 아니라 빅데이터 기반 복잡한 정보들을 학습하고, 이를 통해 특정 현상을 예측하는 방법들에 대한 방법론에 대해서도 많은 연구가 이루어지고 있다. 예측관점에서 통계적 방법론 중심 건강보험 청구자료 분석은 비선형적인 복잡한 정보, 텍스트 정보
앞서 고찰한 연구들의 분석모델을 살펴보면 주로 20여 개의 적은 정보 중심으로 특정 현상 및 문제를 설명하였다[2–9,19–33,35–37] (표 2). 비교적 복잡하지 않은 현상 및 문제를 설명하고자 할 때 설명이 쉬운 통계적 방법론은 좋은 선택일 수 있지만 보다 복잡한 상황에서는 선형성 등 기본가정을 만족시키기 어렵고, 실제 비선형적 복합관계를 가지므로 설명(예측)모델의 성능을 담보하기 어렵다.
Table 2 . 청구데이터 내 정보 활용현황.
연구사례 | 보유 정보 | 이용현황 | 연구사례 |
---|---|---|---|
기본 정 (약 230개) | • 일자 정보: 요양개시일자, 요양종료일자 등 • 요양기관 정보: 요양기관기호 및 종별 코드 등 • 수진자 정보: 수진자 개인식별번호, 보험자 구분코드 등 • 상병 정보: 주상병코드, 부상병코드 등 • 기타 코드정보: 지급구분코드, 서식구분코드 등 • 지표 정보: 명세서 CI • 일수 정보: 내원일수, 원외처방일수 등 • 이용량: 원외처방전건수, 원내처방약품수 등 • 금액 정보: 심사결정요양급여비용총액금액 등 • 기타 정보: 심사부서코드, 적재일시 등 | 약 20개 | 한승진 등[3] (2020), 김한상 등[20] (2020), 최지숙 등[19] (2018), 박찬미 등[36] (2010), Kang 등[5] (2021), 김동 숙 등[4] (2017), 오동관 등[21] (2015), 김지애 등[32] (2020), 이성우 등[6] (2018), 김지애 등[2] (2017), 민인 순 등[31] (2017), 오주연 등[33] (2020), 신민선 등[8] (2020), 이도경 등[7] (2020), Ryu 등[9] (2021), Kim 등 [30] (2021), Park 등[22] (2020), Kim 등[23] (2021), 박 효성 등[25] (2017), Lee 등[35] (2017), Kim 등[26] (2018), An 등[27] (2020), Lee 등[28] (2021), Ko 등[29] (2021) |
상세 정보 (약 200개) | • 상세진료내역: 서식구분코드, 항목코드, 통합분류코드, 약효분류번호구분코드 등 • 세부이용량: 총투여일수 실시횟수, 총사용량 실시횟수 등 • 세부금액 정보: 산출단가, 기본담가, 인정금액, 조정금액 등 • 기타 정보: 약품규격명, 약효분류번호, 적재일시 등 • 상병 정보(상세): 주상병코드, 부상병코드, 상병기호 등 • 특정 내역 정보: 특정 내역코드(상세) 등 | 약 20개 | 박찬미 등[36] (2010), 김지애 등[2] (2017), 김동숙 등[4] (2017), 오동관 등[21] (2015), 이성우 등[6] (2018), 오 주연 등[33] (2020), 이도경 등[7] (2020), Lee 등[37] (2020), Kim 등[23] (2021), 박효성 등[25] (2017), Lee 등[35] (2017), Kim 등[26] (2018), An 등[27] (2020), Lee 등[28] (2021), Park 등[22] (2020), Kim 등[23] (2021), Ko 등[29] (2021), 박찬미 등[36] (2010), 김지애 등[2] (2017), 김동숙 등[24] (2017), Lee 등[35] (2017), 김지애 등[32] (2020), 신민선 등[8] (2020) |
그리고 대부분 연구에서 설명변수로 연속형 변수와 범주가 작은 이산형 변수
건강보험 청구자료의 정보는 기본적으로 환자가 요양기관을 방문해 진료를 받을 때 발생된다. 즉 정보의 발생시점이 불규칙하다. 이런 불규칙 시점 정보와 복잡한 정보들의 반영 등의 어려움으로 인해 국내 연구에서 종단면 및 시계열 분석 활용성이 적었는데, 이런 경향은 해외에서도 비슷하게 나타났다. Goldstein 등[11]은 전자건강기록(electronic health record, EHR) 데이터를 이용한 분석연구들을 검토하였는데, 여기서도 대부분의 연구들이 시간(혹은 반복측정)이 고려되지 않은 것으로 나타났다.
앞서 언급된 통계적 방법론의 특정 제한점을 개선하고자 다양한 인공지능 방법들이 연구되었다. 본 장에서는 인공지능 방법론에 대해 간단히 소개하고 활용사례를 정리하였다.
1) 인공지능 방법론(1) 심층신경망
딥러닝은 기계학습의 인공신경망(artificial neu-ral network)을 다중(심층)으로 연결한 모델로 하나의 인공신경망은 여러 정보들을
(2) 단어 임베딩
딥러닝 기술이 발전함에 따라 자연어처리(natural language processing) 분야에서도 이에 기반한 연구가 활발히 진행되고 있고, 많은 성과를 보이고 있다[38]. 특히 단어 임베딩(word embedding)에서 큰 성과를 보였는데, 이는 주변 단어들의 분포에 기반하여 단어들의 유사도를 계산하고, 이를 n차원 벡터로 매핑시키는 기법이다. 이는 “유사한 분포를 가지는 언어항목(linguistic items)은 유사한 의미를 나타내는 경향이 있다”라는 언어학의 ‘distributional hypothesis’에 기반한다[39]. 단어 임베딩 기법을 통해 고차원의 텍스트 정보를 저차원으로 벡터화할 수 있고, 벡터 간의 수학적 연산을 통해 유사도를 계산할 수 있다[40] (그림 2). 이를 데이터 기반 모델링 관점으로 확장하면, 고차원화의 문제로 인해 적용할 수 없었던 범주형 변수를
(3) 순환신경망
순환신경망(recurrent neural network)은 과거 및 시퀀스(sequence) 정보 등을 학습하기 위한 인공신경망이다. 입력층, 은닉층, 출력층 외 메모리 셀이 있어 이후 시점에 과거 정보를 반영하는 역할을 하게 된다[41] (그림 4). 그리고 순환신경망의 장기 의존성 문제
(4) SHAP
Shapley additive explanation (SHAP)은 복잡한 예측모형에서의 원인에 대한 설명 등에 대한 제한(black-box)을 해결하기 위해 개발된 방법이다. SHAP을 통해 모든 독립변수들의 조합들이 모델에 미치는 영향을 수치화하여 예측결과에 대한 각 특성들의 기여도를 계산할 수 있다.
2) 해외 보건의료분야 인공지능 방법론 활용사례최근 보건의료분야에서 다양한 딥러닝 분석기법을 활용한 연구가 발표되었는데, 이 중 청구자료 및 EHR 데이터를 이용하여 심층, 순환신경망 및 딥러닝 기반 단어 임베딩 기법을 사용한 연구들이 많은 비중을 차지하고 있다.
2016년 Choi 등[14]은 1년 동안 한 환자에게서 발생되는 행위코드, 약제코드, 국제질병사인분류코드, 진단검사코드를 하나의 문장으로 정의하여 단어 임베딩 기법을 적용하였고, 도출된 벡터값에 기반하여 코드 간의 유사도를 계산하였다. Choi 등[14], Che 등[16], Nagata 등[15], Jin 등[17]도 EHR 및 청구자료, 건강검진 자료 내 행위, 약제 코드, 진단검사코드의 조합들을 문장으로 정의하였고, 단어 임베딩 기법을 이용해 100-200개의 벡터로 매칭하였다. 그리고 이를 질환 발생(심부전, 당뇨) 예측 모델링의 설명변수로 활용하여 예측의 정확도를 향상시켰다. Zhang 등[18]은 EHR 자료에서 환자의 진료에서 발생된 코드 내역들을 이용해 환자단위 시계열 예측모델인 Patient2Vec을 제안하였고, 이를 이용해 조기 재입원을 예측한 결과 기존 시계열모형보다 예측정확도가 높게 나타났다.
통계적 모델링 방법은 선형성 가정 기반 간결하게 현상을 설명하고 해석하는 데 강점이 있지만, 정보가 복잡할수록 설명(예측)모델의 적합에 문제가 발생된다. 특히 예측의 관점에서는 정확도를 위해 복잡하고, 충분한 정보의 활용이 필요하여 활용이 어렵다. 반면, 인공지능 기반 모델링 방법은 복잡하고 방대한 정보에서 패턴을 찾는 것에 강점이 있어 예측분석에 주로 활용된다. 그러나 통계적 모델링보다 현상 등 결과의 해석이 어렵다는 제한점
첫 번째, 모델의 목적이 예측이라면 인공지능 방법론 적용 검토가 필요하다. 일반적으로 예측의 경우 많은 정보의 조합을 통해 패턴을 학습하게 되므로 선형관계 중심인 통계적 방법론보다 일반적으로 좋은 성능을 보인다. 두 번째, 예측(또는 설명)하고자 하는 종속변수가 복잡한 인과관계를 가질수록 인공지능 방법론의 적용 검토가 필요하다. 예를 들어, 질병예측모델을 만든다고 가정했을 때 타겟이 특정 외래 경증질환일 때 보다 중증질환일 때 과거 진료내역, 환자상태 등 더 많은 요인에 대한 복합적 검토(학습)가 필요하게 된다. 세 번째, 많은 범주를 가진 진료내역 코드 정보를 설명변수로 활용하고자 할 때 인공지능 방법론 적용 검토가 필요하다. 진단명, 처치 및 수술, 검사, 약제처방 등의 진료내역 정보는 텍스트(코드) 정보로, 최소 1,000여 개의 카테고리로 구분된다. 이를 앞서 소개한 인공지능 기반 단어 임베딩 방법을 통해 축소된 N차원 벡터로 매칭이 가능하고, 생성된 벡터값을 통해 각 범주 간 유사도도 계산이 가능해진다. 네 번째, 과거(혹은 이전 시퀀스) 정보의 반영 여부 그리고 이 정보의 활용방법에 따른 검토가 필요하다. 과거 정보를 모델의 설명변수로 활용할 수 있는 방법은 과거 이력을 하나의 정보로 축약하거나 시점별 과거 이력 정보를 있는 그대로 모델에 반영하는 두 가지로 크게 구분된다. 전자의 대표적인 예로 중증도 점수(Charlson comorbidity index 등)를 들 수 있다. 만약 반영할 과거 정보의 패턴이 복잡하거나 축약이 불가능할 경우 인공지능 방법론 적용 검토가 필요하다. 더욱이 앞서 언급한 것처럼 건강보험 청구자료의 정보 발생시점이 불규칙하여 종단면(혹은 시계열) 분석 시 더욱 복잡한 모델링 방법이 필요하다.
보건의료 빅데이터인 건강보험 청구자료는 전체 인구 중 약 98%의 의료이용 정보가 축적되어 있고[1], 이는 보건의료정책 근거자료 생성, 보건의료분야의 다양한 연구 및 의료계 및 산업계의 R&D 개발에 활용되고 있다. 건강보험 청구자료를 이용한 연구들을 정리하면 단면적 분석 중심의 현황 및 추세분석연구, 특정 요인에 대한 설명(영향) 및 비교분석연구, 과거 정보를 고려한 종단면, 시계열 분석연구로 구분할 수 있고, 주로 통계적 방법이 이용되었다. 그러나 복잡 정보, 텍스트 정보, 불규칙 시계열 정보 등의 활용에 있어 선형성, 간결성에 기반한 전통적 모델링 방법으로는 이런 문제점들을 해결하기 어려워 최근 인공지능 기술을 활용하여 이런 문제들을 극복하려는 시도가 지속적으로 이루어지고 있다. 이에 본 연구에서는 기존 국내 연구들을 분석하여 활용범위 및 분석 제한점을 검토하고, 이를 보완할 수 있는 인공지능 기술 활용 전략을 네 가지 관점에서 제안하였다. 이는 국내 보건의료 빅데이터의 활용범위를 확장시키고 4차 산업의 주요 기술인 인공지능 기술 관련 연구의 활성화에 기여할 수 있을 것으로 기대한다.
끝으로, 현재까지 데이터 분석을 위한 다양한 방법론이 개발되었고, 각각의 장점과 제한점이 존재한다. 따라서 연구내용 및 상황에 따라 적정 방법론 선정을 위한 검토는 매우 중요하다. 최근 4차 산업의 주요 기술인 인공지능 기술에 대한 관심이 높아졌는데, 신중한 검토 없이 새로운 기술 도입 시 모델의 성능 측면이나 효율성 측면에서 안 좋은 결과가 발생될 수 있다. 본 연구에서는 큰 틀에서 인공지능 분석기법이 필요한 상황에 대해 정리하였고, 향후 세부적인 필요 분야와 건강보험 청구자료 내 주요 설명변수 및 적정 활용방법 등에 대한 연구 및 논의가 필요하다.
1 건강보험 가입자
2 차원의 저주(curse of dimensionality
3 진료내역(행위, 약제 등) 코드 정보 등
4 기존 분석연구사례에서 범주형 변수의 경우 2–9개 분류를 설명변수로 반영함
5 진단명 약 1,400개(3단 기준), 행위수가코드 약 5만 개
6 독립, 설명변수, input, feature 값 등
7 종속, 결과변수, output, label, target 값 등
8 범주의 개수가 많은 변수
9 기존엔 주로 더미변수(dummy variable), 원핫인코딩(one-hot-encoding)을 사용하였지만, 범주의 개수가 많은 경우 차원의 저주(curse of dimensionality) 문제가 발생되고 각 범주별로 유사도 등을 계산할 수 없었음
10 진단명, 약제, 처치 및 검사내역 등
11 연구에 목적에 따라 문장은 다양하게 정의될 수 있고(예, 환자의 한 방문에서 발생된 진료 정보 코드 묶음), 문장 내 구성은 진단상병, 약제, 처치내역 등의 다양한 조합으로 이루어짐
12 더 먼 과거 정보 혹은 시퀀스일수록 현재 시점 값에 영향을 주지 못하는 문제
13 앞서 소개한 SHAP 등 모델의 해석력을 보완한 방법론들이 개발되고 있지만, 상대적으로 선형관계 중심 모델보다 해석이 복잡함
Table 1 . 주요 연구사례 선정.
구분 | 주요 분석기법 | 주요 이용정보 | 연구사례(27개) |
---|---|---|---|
단면적 자료 중심 현황 및 추세분석 | • 현황 및 추세분석: 빈도분석; 유병률, 발병률 산출 | 종별 구분, 환자의 주진단명, 진료과 목, 산정특례코드, 입원 외래 구분, DRG 분류군, 입 내원일수, 진료비, 진료내역(행위, 약제 등), 약효분류 구분, 이용량 등 | 최지숙 등[19] (2018), Kim 등[2] (2017), 한승진 등[3] (2020), 김한상 등[20] (2020), 오동관 등[21] (2015), Park 등[22] (2020), Kim 등 [23] (2021), |
특정 요인에 대한 설명(영향) 및 비교분석연구 | • 요인분석: 상관분석, 선형회귀 분석, 로지스틱회귀분석, 음이항회귀분석 등 • 비교 분석: -test, chi-square test 등 | 종별 구분, 환자의 주진단명, 진료과목, 산정특례코드, 입원 외래 구분, DRG 분류군, 입내원일수, 진료비,진료내역(행위, 약제 등), 약효 분류구분, 이용량 등 | 김동숙 등[4] (2017), Kang 등[5] (2021), 이성우 등[6] (2018), 김동숙 등[24] (2017), 박효성 등[25] (2017), Kim 등[26] (2018), An 등 [27] (2020), Lee 등[28] (2021), Ko 등[29] (2021), Kim 등[30] (2021) |
과거 진료이력 등을 반영한 종단면, 시계열 분석연구 | • 시간을 기준으로 전 후 비교분석: 이중차이분석 • 환자 이동 추적분석: 빈도분석 • 시간을 고려한 예측 및 추세분석: 시계열분석, 포아송 회귀분석, 생존분석 등 | 종별 구분, 환자의 주진단명, 진료과 목, 산정특례코드, 입원 외래 구분, DRG 분류군, 입 내원일수, 진 료비, 진료내역(행위, 약제 등), 약 효분류 구분, 이용량 등 | 민인순 등[31] (2017), 김지애 등[32] (2020), 오주연 등[33] (2020), 이도경 등[7] (2020), 김한상 등[34] (2020), Ryu 등[9] (2021), 박찬미 등[36] (2010), 신민선 등[8] (2020), Lee 등 [35] (2017), Lee 등[37] (2020) |
DRG, diagnosis-related group..
Table 2 . 청구데이터 내 정보 활용현황.
연구사례 | 보유 정보 | 이용현황 | 연구사례 |
---|---|---|---|
기본 정 (약 230개) | • 일자 정보: 요양개시일자, 요양종료일자 등 • 요양기관 정보: 요양기관기호 및 종별 코드 등 • 수진자 정보: 수진자 개인식별번호, 보험자 구분코드 등 • 상병 정보: 주상병코드, 부상병코드 등 • 기타 코드정보: 지급구분코드, 서식구분코드 등 • 지표 정보: 명세서 CI • 일수 정보: 내원일수, 원외처방일수 등 • 이용량: 원외처방전건수, 원내처방약품수 등 • 금액 정보: 심사결정요양급여비용총액금액 등 • 기타 정보: 심사부서코드, 적재일시 등 | 약 20개 | 한승진 등[3] (2020), 김한상 등[20] (2020), 최지숙 등[19] (2018), 박찬미 등[36] (2010), Kang 등[5] (2021), 김동 숙 등[4] (2017), 오동관 등[21] (2015), 김지애 등[32] (2020), 이성우 등[6] (2018), 김지애 등[2] (2017), 민인 순 등[31] (2017), 오주연 등[33] (2020), 신민선 등[8] (2020), 이도경 등[7] (2020), Ryu 등[9] (2021), Kim 등 [30] (2021), Park 등[22] (2020), Kim 등[23] (2021), 박 효성 등[25] (2017), Lee 등[35] (2017), Kim 등[26] (2018), An 등[27] (2020), Lee 등[28] (2021), Ko 등[29] (2021) |
상세 정보 (약 200개) | • 상세진료내역: 서식구분코드, 항목코드, 통합분류코드, 약효분류번호구분코드 등 • 세부이용량: 총투여일수 실시횟수, 총사용량 실시횟수 등 • 세부금액 정보: 산출단가, 기본담가, 인정금액, 조정금액 등 • 기타 정보: 약품규격명, 약효분류번호, 적재일시 등 • 상병 정보(상세): 주상병코드, 부상병코드, 상병기호 등 • 특정 내역 정보: 특정 내역코드(상세) 등 | 약 20개 | 박찬미 등[36] (2010), 김지애 등[2] (2017), 김동숙 등[4] (2017), 오동관 등[21] (2015), 이성우 등[6] (2018), 오 주연 등[33] (2020), 이도경 등[7] (2020), Lee 등[37] (2020), Kim 등[23] (2021), 박효성 등[25] (2017), Lee 등[35] (2017), Kim 등[26] (2018), An 등[27] (2020), Lee 등[28] (2021), Park 등[22] (2020), Kim 등[23] (2021), Ko 등[29] (2021), 박찬미 등[36] (2010), 김지애 등[2] (2017), 김동숙 등[24] (2017), Lee 등[35] (2017), 김지애 등[32] (2020), 신민선 등[8] (2020) |