Original Article

Split Viewer

HIRA Research 2021; 1(2): 166-178

Published online November 30, 2021

https://doi.org/10.52937/hira.21.1.2.166

© Health Insurance Review & Assessment Service

새로운 환자표본자료 표본 추출 및 대표성 검증

윤철영1, 안재준2, 이경민3, 최용석3, 김리현3, 하대우1, 유기봉2,3

연세대학교 1응용통계학과, 2데이터사이언스학부, 3보건행정학과

Received: October 14, 2021; Revised: November 2, 2021; Accepted: November 2, 2021

Developing the New National Patient Sample and Evaluating Representations

Chul Young Yoon1 , Jae Joon Ahn2 , Gyeongmin Lee3 , Yongseok Choi3 , Lihyun Kim3 , Dae Yoo Ha1 , Ki-Bong Yoo2,3

1Department of Applied Statistics, 2Division of Data Science, and 3Department of Health Administation, Yonsei University, Wonju, Korea

Correspondence to :
Ki-Bong Yoo
Department of Health Administation, Yonsei University, Changjo 406, 1 Yeonsedae-gil, Wonju 26493, Korea
Tel: +82-33-760-2458
Fax: +82-33-760-2919
E-mail: ykbong@yonsei.ac.kr

Received: October 14, 2021; Revised: November 2, 2021; Accepted: November 2, 2021

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Background: The sampling framework of the National Patient Sample of Health Insurance Review & Assessment Service is needed to be improved due to the current demographic structure. We proposed a sampling method and additional strata for extracting the National Patient Sample data due to the current demographic structure, such as low birth rate and aged population.
Methods: A total of 36 strata were set by adding four strata compared to the existing one. The maximum rate of minimal sample number was defined among the entire strata. Based on the rate, we extracted a small-scale sample dataset consisting of about 400,000 people and a large-scale sample dataset of more than 700,000 people.
Results: The representativeness of the high-frequency disease and the low-frequency disease was confirmed. For health expenditure, the representativeness of samples was confirmed in large-scale samples. However, the representativeness of small-scale samples was not confirmed in five strata.
Conclusion: Using the maximum rate of minimal sample number can reflect the demographic structure changes and diverse medical utilization. Although lack of representativeness in the five strata of the small-scale sample, both the small-scale sample and the large-scale sample are necessary to improve data accessibility and a sustainable data provision system. It will be helpful in establishing health policies and conducting medical research.

Keywords: National patient sample, Sampling studies, Validation study

우리나라의 건강보험 청구자료는 당연지정제라는 환경에서 대표성이 확보된 자료로 보건의료 관련 정책 및 기술 발전 연구에 기초자료로 이용되고 있다. 청구자료는 일선의 의료기관이 건강보험 청구를 진행하며 축적된 자료로 건강보험심사평가원(심사평가원)과 국민건강보험공단이 각각 관리하고 있고 각 기관에서 여러 가지 방향으로 청구자료를 제공하고 있다.

수요자가 건강보험 청구자료를 이용하는 방법은 다음과 같다. 미리 구축된 표본자료를 이용하거나 맞춤형 자료로 신청하여 추출된 자료를 이용하는 방법이 있다. 심사평가원 및 국민건강보험공단에서 표본자료 및 맞춤형 자료를 제공하는 절차는 유사하다. 최근에는 보건의료기본법 제44조, 보건의료기술진흥법 제10조, 제26조에 근거하여 보건의료 빅데이터 플랫폼을 통해 연계된 자료를 제공하였으며[1], 데이터 3법을 바탕으로 심사평가원, 국민건강보험공단, 한국보건산업진흥원을 데이터 결합기관으로 지정하고 데이터를 결합하여 제공하는 절차를 수립하였다[2].

청구자료가 다양한 절차로 제공되고 있지만 맞춤형으로는 증가하는 수요를 감당하기 어렵다. 수요에 대응하고 접근성과 즉시성을 확보하기 위해서는 표본자료가 중요한 역할을 한다. 이에 심사평가원은 환자표본자료를 개발하고 이를 제공하기 시작하였다[3]. 마찬가지로 국민건강보험공단에서도 표본코호트를 개발하여 제공하기 시작하였다. 환자표본자료는 2010년부터 개발을 시작하였다. 환자표본자료는 전체환자데이터셋(national patient sample, NPS), 입원환자데이터셋(national inpatient sample, NIS), 소아청소년환자데이터셋(pediatric patient sample, PPS), 고령환자데이터셋(aged population sample, APS)으로 구성 및 제공되고 있다. 데이터 제공 연도는 2009년부터 매년 표본 추출 및 제공하고 있다. 국민건강보험공단 표본코호트는 2002년부터의 건강보험 자격 대상자 코호트 자료를 구축하여 제공하고 있다. 세부적인 표본 데이터로는 표본코호트DB, 건강검진코호트DB, 노인코호트DB, 직장여성코호트DB, 영유아검진코호트DB로 구성되어 있다. 환자표본자료와 표본코호트 모두 국민건강보험의 청구자료를 바탕으로 구성되어 있다. 건강보험 빅데이터의 20번 테이블(명세서 일반), 30번 테이블(진료내역), 40번 테이블(상병내역), 53번 테이블(원외처방내역), 요양기관 테이블은 환자표본자료와 표본코호트에 모두 존재한다. 세부 변수로는 요양기관 테이블에서 차이가 나고 나머지는 거의 동일하다. 두 표본자료의 큰 차이점은 자격테이블과 건강검진테이블이다. 자격테이블은 건강보험 자격 대상자에 대한 정보로, 국민건강보험공단이 보험료 징수를 담당하고 있기에 표본코호트에만 존재한다. 자격 정보에는 소득수준의 대리변수로 이용할 수 있는 보험료 납부 분위와 환자의 거주지역, 장애등급 등의 정보가 담겨있다. 마찬가지로 검진 데이터도 국민건강보험공단이 국가검진을 관리하고 있기에 표본코호트에만 존재하고 있다.

환자표본자료가 비록 자격 및 검진 정보가 부족하고 단일 연도 데이터라는 한계가 있지만, 접근성 및 연도별 대표성 측면에서 사용자에게 선호되는 특성이 있다. 환자표본자료는 처방양상을 분석하거나[4,5] 질병부담 측정[6], 의료이용행태 보고 연구[7,8] 등을 수행하는 데 주로 이용되고 있으며, 환자표본자료를 이용하여 시장분석을 수행하는 벤처기업 및 제약회사가 있을 정도로 산학계 여러 방면에서 활용도가 높은 상황이다. 질병 위험요인 연구[9]에도 일부 이용되고 있지만, 주요 활용도는 연도별 대표성을 기반으로 신속하게 현황 및 추세를 보고하는 데 주로 사용되고 있기에 사회적으로 수요가 매우 높은 자료원이라 볼 수 있다.

다만 2010년부터 환자표본자료의 개발 및 추출을 시작한 이후로 추출 틀에 대한 변경이 없었기에 연도별 대표성에 대한 보완의 필요성이 제기되고 있는 상황이다. 저출산 고령화 및 의료이용 패턴의 변화를 반영하여 새로운 층의 도입이 요구되고 있다. 2012년 의료비통계연보와 2020년 의료비통계연보에서 연령별 요양급여비용을 비교하였을 때, 만 0세 기준 2012년에는 634,087,591천 원이 지출되었지만 2020년에는 807,674,274천 원이 지출되었고, 명세서 건당 요양급여비용은 2012년에는 약 26,000원 수준이었지만 2020년에는 85,000원 수준으로 증가하였다[10,11]. 보장성 강화 및 수가 인상을 감안하더라도 2012년 출생아 수가 약 48만 명, 2020년 출생아 수가 약 27만 명으로 큰 폭으로 감소하였음에도 불구하고 영유아 층에서 의료비가 많이 발생한다는 것은 그만큼 의료비의 분산이 클 수 있다는 것을 의미한다[12,13]. 더불어 80세 이상 인구의 비율이 2012년 2.1%에서 2020년 3.6%로 큰 폭으로 늘었다. 노인 의료비의 경우 금액이 많고 분산이 크기 때문에 표본 추출 층을 조금 더 세분화할 필요가 있다[14]. 이렇게 인구구조가 변화하였지만, 기존의 환자표본자료는 영유아 층을 4세 이하, 5-9세로 구분하고 있으며 고령층의 경우 75세 이상을 한 개의 층으로 설정한 상황이기에 현재의 인구구조를 반영한 환자표본자료 표본 추출 틀을 보완할 필요성이 제기된 상황이다.

따라서 이 연구에서는 저출산 고령화의 현황에 맞는 환자표본자료 추출방법과 층을 제안하고, 이를 토대로 추출한 환자표본자료를 제시하고자 한다. 대표성을 확보하여 보다 근거수준이 높은 연구를 수행하는 데 도움이 될 것이다.

저출산 고령화에 따라 지속적으로 변화하고 있는 인구구조를 반영하기 위해 표본 추출 층과 방법을 제안하고 이에 맞추어 표본 추출을 진행하고, 대표성을 검증하고자 한다.

1. 표본 추출 층

표본 추출 층화 변수로는 연령과 성을 선택하였다.사전에 수행된 연구 프로젝트(G000FF8-2020-179)에 기초하였을 때 모집단 실제값과 표본의 모집단 추정값은 주로 저연령 및 고연령에서 크게 차이 나고 있기 때문에 이에 맞추어 연령층을 19세 이전의 5개 구간, 20세 이상은 5세 단위로 나눠 20-79세 12개 구간과 80세 이상 1개 구간, 총 18개 구간으로 구분하고자 한다. 19세 이전의 층은 기존 0-4세, 5-9세, 10-14세, 15-19세에서 0-2세, 3-5세, 6-9세, 10-12세, 13-19세로 구분하였다. 생애주기상 0-2세는 영아기로 구분하고 있으며 3-5세는 미취학 아동기인 유아기로 구분된다. 보통 6-12세는 아동기로 분류하는데, 6-9세는 초등학교 저학년, 10-12세는 초등학교 고학년이고 성장과정에 있기 때문에 두 개 층으로 구분하였다. 13-19세는 청소년기로 한 개의 층으로 설정하였다. 기존 PPS도 0-2세, 3-5세, 6-9세, 10-12세, 13-19세로 구분하고 있으나 NPS, NIS는 5세 단위로 연령을 구분하기에 기준을 통일하였다. 종합적으로 총 36개의 층을 설정하였다.

2. 표본 추출방법

이 연구에서는 2가지의 층화 변수, 총 36개의 층을 사용하는 층화임의추출법을 사용하였다. 각 층마다 표본의 최소 크기는 다음과 같이 진행하였다. 층별 대표 변수는 1인당 총의료비의 로그를 취한 값(Χ)으로 설정하였다. 이는 과거 표본과의 일관성을 유지하기 위함이다[3]. 1인당 총의료비는 경제협력개발기구(Organization for Economic Cooperation and Development, OECD) 등 국제 데이터와의 비교, 재정 추계, 정책 결정에 이용되는 가장 기본적인 변수이기에 대표 변수로 선정하였다. 각 층별로 log (1인당 총의료비)의 표본 평균 를 이용하여 모평균 μ를 추정하기 위한 최소 표본의 크기를 오차한계 기준으로 계산하였다. 오차한계는 표본으로 허용할 수 있는 모집단과의 오차를 뜻하며 다음 수식 1로 계산하였다.

d=Zα/2σn

수식 1에서 α는 신뢰수준이며, Z는 신뢰수준에 대한 Z값(=1.96), d는 100(1-α)%의 오차한계(=5%), σ는 모 표준편차, n은 표본의 수를 뜻한다. 수식 1을 이용하여 100(1-α)%, 5%의 오차한계를 가지는 최소 표본의 수를 구하려면 수식 2를 거쳐 수식 3으로 변형해야 한다.

dZα/2σn
n(Zα/2σd)2

일반적으로 수식 1에서 문제가 되는 부분은 모 표준편차인 σ를 구할 수 없다는 것인데, 이 연구에서는 모분산을 구할 수 있으므로 모 표준편차 σ는 문제가 되지 않는다. 따라서 수식 3을 이용하여 모집단을 추정할 수 있는 층별 표본의 수를 구할 수 있다.

수식 3의 표본의 수(n)는 층별 모분산 값에 따라 달라지므로 층마다 필요한 최소 표본의 수(minimum sample number)가 달라진다. 각 층을 최소 표본의 수만큼 추출하는 경우 층마다 모집단 대비 표본의 비율이 달라질 수 있기 때문에 층별 대표성은 확보될 수 있지만 전체 집단에서의 대표성은 왜곡될 수 있다. 따라서 이 연구에서는 층별 최소 표본의 수를 계산한 이후, 층별 모집단 대비 최소 표본 수의 비율을 계산하고, 이 비율 중 최대값을 기준으로 전체 층의 표본을 추출하는 방법을 사용하였다. 그림 1은 각 층의 최소 표본 수의 비율 중 최대값을 기준으로 각 층의 표본 수를 고려하는 과정을 보여준다. Maximum rate of minimum sample number는 모집단에서 층을 나눌 때 사용되는 각 층의 최소 표본 수의 비율 중 최대값을 나타낸다.

Fig. 1.각 층의 최소 표본 수(minimum sample number, MSN)의 비율 중 최대값을 이용한 전체 표본 수 확보과정.

종합하자면, 이 연구에서는 기존에 비해 연령층을 19세 이전과 고령층에서 층을 추가하여 총 36개 층으로 구성하였고, 표본 추출의 비율을 모집단 전체를 기준으로 선택한 것이 아닌 층별 표본 추출의 비율을 계산하고, 이 중 최대값을 선택하여 표본 추출의 비율로 결정하였다.

3. 신규 데이터 구축

이 연구에서 제안하는 표본은 기존 환자표본자료의 형태에 맞추어 전체 환자, 입원환자, 소아·청소년 환자 그리고 고령 환자로 나누고 단면 표본으로 구축하였다. 보안에 대한 우려가 있기 때문에 최소한의 대표성을 확보하는 소규모 표본자료와 기존의 심사평가원의 표본 데이터의 크기와 비슷한 100만 명 규모의 대규모 표본자료로 구분하여 구축하였다. 최소 표본 수의 비율 중 최대값을 적용하였을 때 NPS, NIS에서 약 40만 수준으로 도출되었기 때문에 PPS, APS 소규모 표본자료도 약 40만으로 구성하였다. 신규 데이터는 심사평가원 내부의 보안기준을 거친 2018년 청구자료 전체를 이용하였다.

4. 신규 데이터 대표성 검증

상병 빈도는 SAS ver. 9.4의 PROC SURVEY -FREQ (SAS Institute Inc., Cary, NC, USA), 1인당 총의료비 등의 연속형 자료의 검증은 SAS ver. 9.4의 PROC SURVEYMEANS (SAS Institute Inc.)를 이용하여 검정하였다. SAS ver. 9.4의 SURVEY 프로시저(SAS Institute Inc.)는 표본 데이터로부터 모집단의 추정값과 표준오차, 신뢰구간을 계산하는 데 이용한다. SURVEY 프로시저 수행 시에는 표본 추출과정에서 계산된 층별 가중치를 적용하였다.

1. 층별 현황

층별 모집단 수와 최소 표본의 수, 추출비율은 표1과 같다. 층별 분산을 바탕으로 최소 표본의 수를 계산하였고, 모집단 수에 최소 표본의 수를 나누어 추출비율을 결정하였다. NPS의 경우 추출비율 최대값이 남성 80세 이상 층 약 0.007795, NIS는 여성 10-12세 0.05204로, PPS는 여성 2세 이하 층0.002863, APS는 남성 80세 이상 층 약 0.007795로 확인되었다(표 1).

Table 1 . 층별 모집단 수와 최소 표본의 수, 추출비율

표본연령(세)모집단 수(명)최소 표본수(명)층별 추출 비율



NPS≤2758,733716,6292,0732,0520.0027320.002863
3-5887,767843,2811,5781,5300.0017770.001814
6-91,137,8691,073,0311,6871,7900.0014830.001668
10-12851,996803,0752,2082,1370.0025920.002661
13-191,962,6601,876,4502,5652,2100.0013070.001178
20-241,712,1511,737,3612,8462,4440.0016620.001407
25-291,786,2141,757,9332,7922,8200.0015630.001604
30-341,720,4771,766,2412,8473,1920.0016550.001807
35-392,078,0152,139,9002,9553,0880.0014220.001443
40-442,058,2972,112,2793,1123,0180.0015120.001429
45-492,360,9782,440,3023,2843,0700.0013910.001258
50-542,236,6722,329,9153,5233,0360.0015750.001303
55-592,330,5552,430,8253,5422,8640.0015200.001178
60-641,875,8471,983,0453,7572,9750.0020030.001500
65-691,310,6371,436,5613,7442,8650.0028570.001994
70-74980,2081,161,8003,9043,0200.0039830.002599
75-79770,5711,074,8903,9523,2830.0051290.003054
≥80586,1051,209,9914,5694,8010.0077950.003968
NIS≤2200,186173,1281,8351,8060.0091660.010432
3-5100,74686,8341,4261,3970.0141550.016090
6-979,17364,9381,5091,4530.0190590.022378
10-1243,86931,9951,6041,6650.0365680.052038
13-19125,92497,7321,7061,7050.0135490.017445
20-24109,684108,1811,7301,7520.0157730.016195
25-29106,583165,0221,9391,5430.0181920.009353
30-34112,118241,5571,9681,3560.0175520.005615
35-39151,530230,5182,0891,8580.0137880.008058
40-44156,333179,3962,2922,2610.0146590.012606
45-49195,720226,7632,4672,3430.0126050.010331
50-54219,249256,7702,6682,3580.0121700.009182
55-59276,240302,8912,7172,2820.0098350.007535
60-64251,387260,8202,7932,2870.0111100.008769
65-69196,671201,0352,5422,0970.0129270.010431
70-74170,319179,9112,5452,0970.0149430.011657
75-79161,005215,9452,4962,3070.0155000.010684
≥80177,550383,3672,8432,9680.0160110.007741
PPS≤2758,733716,6292,0732,0520.0027320.002863
3-5887,767843,2811,5781,5300.0017770.001814
6-91,137,8691,073,0311,6871,7900.0014830.001668
10-12851,996803,0752,2082,1370.0025920.002661
13-191,962,6601,876,4502,5652,2100.0013070.001178
APS≤691,310,6371,436,5613,7442,8650.0028570.001994
70-74980,2081,161,8003,9043,0200.0039830.002599
75-79770,5711,074,8903,9523,2830.0051290.003054
≥80586,1051,209,9914,5694,8010.0077950.003968

NPS, national patient sample; NIS, national inpatient sample; PPS, pediatric patient sample; APS, aged population sample.



2. 표본의 일반적 현황

소규모에서 NPS, NIS는 위 추출비율 중 최대값으로 하였을 때 약 40만 정도의 규모이고, APS와 PPS는 일관성을 위해 추출비율 중 최대값보다 더 크게 늘려 APS는 0.042945, PPS는 0.054565로 설정하여 표본 추출하였다. 대규모 데이터의 경우 NPS는 100만 규모, NIS와 PPS, APS는 기존 표본자료와 동일한 수치로 설정하여 NPS는 0.021, NIS, PPS, APS는 각 0.1로 추출 진행하였다. 진행된 표본에서의 환자 수 및 명세서 건수는 표 2와 같다.

Table 2 . 표본자료의 데이터 수

표본소규모대규모


환자 수(명)명세서 건수(건)환자 수(명)명세서 건수(건)
NPS385,4547,638,8651,038,38820,546,234
NIS394,91013,701,712758,87026,347,433
PPS408,0546,800,288950,16915,793,300
APS394,68215,734,081723,32128,841,428

NPS, national patient sample; NIS, national inpatient sample; PPS, pediatric patient sample; APS, aged population sample.



3. 대표성 검증

NPS, NIS, PPS, APS의 소규모, 대규모 표본에있어 상병 및 1인당 총의료비의 대표성을 검증하였다. 모집단의 통계값인 실제 수치가 표본자료의 신뢰구간에 포함이 된다면 대표성이 있다고 판단할 수 있다. 상병 중 다빈도와 저빈도 상병을 1개씩 선정하여 대표성을 확인하였고 표 3에 제시하였다.

Table 3 . 다빈도 및 저빈도 상병 대표성 검증

표본상병실제(건)소규모대규모


추정신뢰구간추정신뢰구간


하한상한하한상한
NPSK0516,232,82016,265,56416,194,42216,336,70516,236,84816,193,52016,280,176
C805,8856,2864,5268,0455,0484,0876,008
NISA091,133,0111,135,5031,127,4361,143,5701,132,9801,127,1631,138,797
C7812,90813,12512,14214,10813,23012,51813,942
PPSJ302,807,2082,800,1482,787,3232,812,9732,803,5172,795,1132,811,922
C912,6632,6312,1463,1162,7502,4253,075
APSI102,795,0662,797,2042,786,2562,808,1522,800,2062,792,1182,808,295
C787,3587,1476,4387,8567,6207,0798,161

NPS, national patient sample; NIS, national inpatient sample; PPS, pediatric patient sample; APS, aged population sample.



NPS, NIS, PPS, APS의 소규모, 대규모 표본의 성별, 연령별 1인당 총의료비의 대표성을 검증하였고, 표 4-7에 각각 제시하였다. NPS의 경우, 소규모에서 6-9세, 10-12세 여성과 40-44세 남성의 경우 1인당 총의료비 실제값이 추정값의 신뢰구간 범위 내에 있지 않아 낮은 대표성을 확인하였고, 대규모에서는 모든 층에서 대표성을 확인하였다. NIS의 경우, 대규모에서는 모든 층에서 대표성을 확인하였으나 소규모에서 10-12세와 75-79세 남성의 경우 1인당 총의료비 실제값이 추정값의 신뢰구간 범위 내에 있지 않아 낮은 대표성을 확인하였다. PPS와 APS는 모든 성별, 연령 구간에서 1인당 총의료비 실제값이 추정값의 신뢰구간 내에 포함되기 때문에 대표성을 만족함을 확인하였다.

Table 4 . NPS 표본 성별, 연령별 1인당 총의료비 대표성 검증

연령(세)성별실제(원)소규모대규모


추정하한상한추정하한상한
≤21,322,3021,453,2721,197,8101,708,7351,391,0951,255,2081,526,982
1,173,3501,231,3441,052,6351,410,0521,168,5631,068,1551,268,972
3-5733,924709,332677,806740,858738,289694,678781,899
671,396663,243632,169694,318722,105644,989799,221
6-9542,950558,833490,093627,572543,515507,122579,908
533,463512,236496,056528,416522,641506,211539,071
10-12460,592459,516413,492505,539435,666403,173468,158
382,659356,036335,886376,186390,748349,368432,128
13-19467,012442,143410,711473,575507,013449,390564,635
388,055378,898362,418395,378389,456374,195404,717
20-24477,387499,964402,072597,856473,840450,790496,890
496,200495,035471,680518,391484,415471,389497,442
25-29502,568583,750394,206773,294498,456468,951527,961
702,024677,819650,341705,297693,885673,286714,483
30-34581,526553,662504,377602,948628,955519,464738,446
964,073963,280921,8981,004,662957,165931,332982,999
35-39681,893732,967634,606831,328673,073638,013708,133
897,088895,233823,791966,675917,905887,527948,284
40-44824,574779,297735,674822,919865,217821,812908,622
892,348896,995844,835949,155892,543859,030926,055
45-491,011,337977,615925,4761,029,7541,016,375975,2151,057,535
1,045,4521,051,535991,7401,111,3291,027,281999,0671,055,494
50-541,295,9861,265,2381,185,5521,344,9251,273,6051,227,2151,319,996
1,309,1681,287,5351,230,7601,344,3111,302,6341,264,5091,340,759
55-591,662,1841,727,4301,638,1671,816,6921,644,3941,595,6911,693,096
1,567,5721,555,3871,493,5641,617,2111,579,3031,540,3611,618,246
60-642,130,1352,194,7042,083,5132,305,8962,118,6682,050,6162,186,721
1,918,6991,911,1691,829,6661,992,6731,910,9251,857,4061,964,444
65-692,990,5662,882,6712,742,2223,023,1202,972,0682,882,5463,061,590
2,665,0342,725,9412,610,8912,840,9902,636,5172,563,9432,709,091
70-743,665,5823,881,3613,655,9134,106,8093,628,7793,510,8913,746,668
3,263,9793,246,7043,094,6033,398,8053,296,8553,200,5583,393,152
75-794,166,5964,253,6424,006,0244,501,2594,139,1383,996,3254,281,952
4,034,1074,044,9033,862,5184,227,2874,072,1693,957,6384,186,701
≥805,102,5055,163,5804,846,8415,480,3185,117,1174,936,3825,297,851
5,280,9125,267,6785,066,1615,469,1965,339,0265,216,3325,461,719

NPS, national patient sample.



Table 5 . NIS 표본 성별, 연령별 1인당 총의료비 대표성 검증

연령(세)성별실제(원)소규모대규모


추정하한상한추정하한상한
≤23,083,3173,108,9952,809,7193,408,2703,160,2172,989,8593,330,576
2,900,9842,836,5122,613,7863,059,2382,837,3142,675,6262,999,003
3-52,051,8052,120,3171,934,2642,306,3712,015,0491,924,0362,106,062
1,974,1682,086,7191,855,7162,317,7231,974,5701,895,6482,053,493
6-92,033,0372,056,8611,870,5672,243,1552,042,5611,923,2962,161,825
1,991,4681,899,8121,796,7872,002,8382,013,3431,847,9322,178,755
10-122,288,9192,005,4561,774,7612,236,1522,371,8232,039,8122,703,835
2,209,5952,211,8951,807,0712,616,7192,416,1302,020,1052,812,155
13-192,724,1242,695,0822,443,8802,946,2852,636,5112,499,1212,773,902
2,376,6442,383,8442,227,7212,539,9672,423,5822,303,9762,543,188
20-242,699,9912,804,2892,647,1382,961,4412,813,1882,652,3422,974,034
2,484,7282,430,2412,328,9382,531,5442,498,5752,404,1592,592,992
25-292,820,6272,783,6612,628,7852,938,5372,847,3952,735,1912,959,599
2,838,4572,826,2342,729,2522,923,2152,836,8172,737,9632,935,672
30-343,014,3683,078,1892,904,8873,251,4903,091,3082,956,0613,226,555
3,208,2943,233,0353,133,0903,332,9803,183,7243,130,4643,236,984
35-393,468,8943,412,8293,248,5693,577,0893,470,9463,328,6823,613,209
3,589,4633,571,1193,479,8513,662,3873,637,5553,555,6743,719,437
40-444,236,5664,317,4534,124,2694,510,6374,206,5194,073,8234,339,214
4,109,2304,102,6793,962,5224,242,8354,089,8403,992,9944,186,687
45-495,136,6915,058,6174,880,2145,237,0215,137,9525,008,4185,267,486
4,516,9144,577,2134,431,5324,722,8934,562,0754,464,7894,659,361
50-545,993,1946,190,5565,989,3686,391,7445,930,6175,802,9966,058,239
4,854,5264,859,1214,730,0274,988,2144,848,2724,750,9934,945,552
55-596,790,5606,659,5886,487,1066,832,0716,817,9036,696,6136,939,192
5,323,4645,273,5825,153,4005,393,7645,280,3385,193,1195,367,557
60-647,834,9768,038,0197,830,8678,245,1717,775,8767,637,7417,914,010
6,132,5956,058,2895,908,4016,208,1776,056,8875,952,5526,161,222
65-699,101,2519,201,0748,963,0989,439,0509,119,4328,958,9359,279,929
7,378,3417,409,8237,239,4927,580,1537,341,6187,223,1797,460,057
70-7410,046,25110,183,7999,932,43010,435,1699,903,0329,726,16510,079,900
8,552,0428,420,6478,231,9308,609,3638,510,9228,372,4018,649,442
75-7910,353,12710,105,4439,862,26310,348,62410,274,65510,090,38310,458,927
9,738,1539,928,6439,735,17610,122,1109,705,9229,568,4649,843,380
≥8011,021,63711,049,59010,799,53111,299,64911,005,64610,825,03311,186,259
11,715,76511,678,08311,514,61211,841,55411,673,53111,558,23011,788,833

NIS, national inpatient sample.



Table 6 . PPS 표본 성별, 연령별 1인당 총의료비 대표성 검증

연령(세)성별실제(원)소규모대규모


추정하한상한추정하한상한
≤21,322,3021,369,5711,279,7771,459,3661,312,7051,260,1711,365,239
1,173,3501,223,7871,141,5991,305,9751,205,8301,149,3421,262,317
3-5733,924716,154694,180738,127730,976714,488747,464
671,396673,134651,636694,631669,073656,513681,633
6-9542,950531,117516,081546,153545,236526,242564,231
533,463548,032523,843572,221535,585521,852549,319
10-12460,592455,561419,898491,224446,940429,893463,986
382,659397,085371,351422,818376,167360,487391,847
13-19467,012496,237446,422546,052466,502450,246482,758
388,055389,531372,431406,631395,753383,302408,204

PPS, pediatric patient sample.



Table 7 . APS 표본 성별, 연령별 1인당 총의료비 대표성 검증

연령(세)성별실제(원)소규모대규모


추정하한상한추정하한상한
65-692,990,5662,939,1542,882,7972,995,5122,998,5952,955,2753,041,914
2,665,0342,639,7932,597,6862,681,9002,669,4562,637,6182,701,294
70-743,665,5823,624,7683,546,4643,703,0713,710,4323,651,7613,769,103
3,263,9793,301,6173,240,5713,362,6643,252,3753,210,3923,294,358
75-794,166,5964,132,7684,041,6824,223,8544,205,3334,137,0554,273,611
4,034,1074,000,1303,932,9334,067,3264,014,2273,964,2984,064,157
≥805,102,5055,176,9585,060,7195,293,1975,086,4635,002,0115,170,915
5,280,9125,244,6685,168,8225,320,5145,308,9775,252,9315,365,022

APS, aged population sample.


이 연구에서는 새로운 표본 추출방법을 적용하여소규모와 대규모의 표본자료를 구축하였다. 기존 표본과의 차이점은 표본 추출비율을 산정하는 방식이 다르고 연령층이 다르다. 기존 표본 추출의 경우 전체 인구 모집단을 바탕으로 필요 표본의 수를 계산하고 이에 맞추어 각 연령, 성별 계층에서 표본을 추출하였다[3]. 각 연령, 성별 계층별로 대표성을 확보할 수 있는 최소 표본의 수 및 표본 추출비율을 계산하고, 층별 표본 추출비율 중 가장 큰 값을 기준으로 표본 추출을 진행하였다. 기존의 필요 표본의 수를 계산하는 방식을 적용해도 이론적으로 현재 대표성을 확보할 수 있는 수준이지만, 제안한 연구방법을 적용할 경우 다음과 같은 장점이 있다. 인구구조 및 의료이용행태가 급격하게 변하면 개별 층에서 대표 변수인 의료비의 분산이 크게 변동될 여지가 있다. 이 경우 기존 표본 추출방식으로 진행하는 경우 일부 층에서 늘어난 분산을 담보할 수 있는 최소 표본의 수를 추출하지 못할 가능성이 있다. 이 연구에서 제안하는 표본 추출방식을 적용하는 경우 매번 층마다 분산을 계산하여 추출비율을 결정하는 과정을 거치지만, 층을 추가하지 않고도 대표성을 담보할 수 있다는 것이다. 더불어 인구의 저출산 고령화 추세를 반영하기 위해 저연령과 고령층에서 각각 1개 층씩 추가하여 기존 16개 연령층에서 18개 연령층으로 확대했다.

대규모 표본에서는 1인당 총의료비의 대표성이 모두 충족되었지만, NPS, NIS의 소규모 표본 중 일부 연령층에서 추정값의 신뢰구간이 실제값을 포함하지 못한 것이 확인되었다. 층별 1인당 총의료비는 의료급여, 요양병원, 희귀질환 등의 영향으로 분산이 크다. 소규모 표본에서는 무작위 표본 추출을 진행할 시 극단 치의 영향이 커, 이로 인해 대표성에서 벗어난 것으로 여겨진다. 대표성이 약간 어긋나 있다 하더라도 소규모 표본으로 자료의 접근성을 향상하는 것이 활용도를 높이는 데 도움이 될 것이기에 제안하고자 한다. 데이터 3법이 통과하고 가명 정보방식으로 동의 없이 제3자에게 환자표본자료를 직접 제공하는 방식이 법적으로 가능하지만, 청구자료라는 특수성 때문에 소규모 표본과 대규모 표본으로 이원화하여 공개수준을 구분하는 것도 지속 가능한 데이터 제공을 위한 선택 전략일 것이다.

저빈도 상병 일부의 대표성을 확인하였지만, 무작위 추출로 구축한 표본자료라는 한계상 모집단에서 청구빈도가 적은 희귀질환의 경우 대표성이 떨어질 수 있다. 환자표본자료를 적절히 이용하기 위해서는 가급적 유병률이나 발생률이 어느 정도 수준이 되는 상병을 연구대상으로 하거나 어느 정도 규모가 있는 인구집단을 연구대상으로 선정하는 것이 중요하다.

국민건강보험공단의 표본코호트 데이터베이스의 경우 층화계통추출 비례배분법으로 표본을 구축하였다[15]. 층화 변수로는 연령·성별 보험료 분위 및 지역으로 총 1,476층을 포함하였다. 층은 표본코호트 2.0이 되면서 2,142층으로 더 추가하였다. 층별 대표 변수로 연간 의료비를 선택하였다. 층별 표본은 층의 모집단 의료비와 표본의 의료비의 오차비율이 5%가 넘지 않도록 반복 추출하였다. 대만의National Health Insurance Research Database의 경우 연령, 성별, 지역을 대표 변수로 설정하였으며 2016년부터는 전체 인구 데이터셋을 제공하고 있다[16]. 위 선행연구 사례에 맞추어 소규모 표본의 대표성을 향상시키는 방법으로는 개인의 자격 정보를 연계시키는 방법이 가장 효과적일 것이다. 자격 정보에 있는 지역, 보험료 수준 및 장애 정보 등을 활용한다면 대표성을 더욱 강화할 수 있을 것이다. 의료비 변수는 왜도가 매우 높은 변수이기 때문에 층화계통추출을 사용하는 것이 효율적이라 볼 수 있다. 이 연구에서는 층화임의추출 방법을 사용하였는데, 자격 정보 없이 의료비 순으로 정렬할 경우 소득 분위 및 의료급여 등의 정보에 따라 패턴이 발생할 수 있으며, 층의 수도 표본코호트에 비해 적기 때문에 기존의 임의추출방법을 유지하였다. 미국 Agency for Healthcare Research and Quality (AHRQ)에서 제공하고 있는 National Inpatient Sample의 경우 층화계통추출을 진행하였으며, 대표 변수로 지역, 수련병원 여부, 의료기관 운영 주체 및 침상 수로 설정하였다[17]. AHRQ의 National Inpatient Sample의 경우 환자보다는 대표성 있는 입원자료 구축이 목적이기 때문에 환자표본자료와는 추구하는 방향이 달라 의료이용 변수를 추출 틀에 포함하지 않았다.

현재 우리나라에서 보건의료 관련 연구를 하는 데 있어 청구자료가 가지고 있는 가치는 상당히 높다. 청구자료 중 가장 접근성이 높은 환자표본자료를 지속적으로 관리 및 제공하는 것이 좀 더 세밀한 국가 정책 수립 및 보건의료 연구를 수행하는 데 도움이 될 수 있을 것이다.


이 논문은 2020년 건강보험심사평가원의 지원을받아 수행된 연구이다(환자표본자료 구축 방안 및 활용 실태 조사, 2020, G000FF8-2020-179).

  1. 보건의료 빅데이터 플랫폼. 보건의료 빅데이터 플랫폼 사업[Internet]. 청주: 한국보건산업진흥원; c2021 [cited 2021 Oct 10].
    Available from: https://hcdl.mohw.go.kr/BD/Portal/Enterprise/DefaultPage.bzr?tabID=1093&ftab=1003.
  2. 보건복지부. 보건의료분야 결합전문기관 소개[Internet].세종: 보건복지부; c2020 [cited 2021 Oct 10].
    Available from: https://datalink.mohw.go.kr/intro.html.
  3. Kim L, Sakong J, Kim Y, Kim S, Kim S, Tchoe B, et al. Developing the inpatient sample for the National Health Insurance claims data. Health Policy Manag. 2013;23(2):152-61. DOI: https://doi.org/10.4332/KJHPA.2013.23.2.152.
    CrossRef
  4. Hwang SG, Park H. An analysis on prescribing patterns of Alzheimer’s dementia treatment and choline alfoscerate using HIRA claims data. Korean J Clin Pharm. 2019;29(1):1-8. DOI: https://doi.org/10.24304/kjcp.2019.29.1.1.
    CrossRef
  5. Jeon SM, Park S, Rhie SJ, Kwon JW. Prescribing patterns of polypharmacy in Korean pediatric patients. PLoS One. 2019;14(10):e0222781. DOI: https://doi.org/10.1371/journal.pone.0222781.
    Pubmed KoreaMed CrossRef
  6. Cha YJ. The economic burden of stroke based on South Korea’s national health insurance claims database. Int J Health Policy Manag. 2018;7(10):904-9. DOI: https://doi.org/10.15171/ijhpm.2018.42.
    Pubmed KoreaMed CrossRef
  7. Rhee CK, Kim K, Yoon HK, Kim JA, Kim SH, Lee SH, et al. Natural course of early COPD. Int J Chron Obstruct Pulmon Dis. 2017;12:663-8. DOI: https://doi.org/10.2147/COPD.S122989.
    Pubmed KoreaMed CrossRef
  8. Yuk JS, Baek JC, Park JE, Jo HC, Park JK, Cho IA. Incidence of gestational trophoblastic disease in South Korea: a longitudinal, population-based study. PeerJ. 2019;7:e6490. DOI: https://doi.org/10.7717/peerj.6490.
    Pubmed KoreaMed CrossRef
  9. Lee JY, Lim NG, Chung CK, Lee JY, Kim HJ, Park SB. Parkinson’s disease as risk factor in osteoporosis and osteoporotic vertebral fracture : prevalence study using National Inpatient Sample Database in Korea. J Korean Neurosurg Soc. 2019;62(1):71-82. DOI: https://doi.org/10.3340/jkns.2018.0012.
    Pubmed KoreaMed CrossRef
  10. 건강보험심사평가원. 2012년 진료비통계지표. 원주: 건강보험심사평가원; 2013.
  11. 건강보험심사평가원. 2020년 진료비통계지표. 원주: 건강보험심사평가원; 2021.
  12. 통계청. 인구동향조사. 대전: 통계청; 2021.
  13. 통계청. 장래인구조사. 대전: 통계청; 2021.
  14. 이수연, 문용필. 국민건강보험의 노인의료비 지출추계 및 장기재정 전망. 비판사회정책. 2018;58:53-93. DOI: https://doi.org/10.47042/ACSW.2018.02.58.53.
    CrossRef
  15. Lee J, Lee JS, Park SH, Shin SA, Kim K. Cohort profile: the National Health Insurance Service-National Sample Cohort (NHIS-NSC), South Korea. Int J Epidemiol. 2017;46(2):e15. DOI: https://doi.org/10.1093/ije/dyv319.
    Pubmed CrossRef
  16. Lin LY, Warren-Gash C, Smeeth L, Chen PC. Data resource profile: the National Health Insurance Research Database (NHIRD). Epidemiol Health. 2018;40:e2018062. DOI: https://doi.org/10.4178/epih.e2018062.
    Pubmed KoreaMed CrossRef
  17. Healthcare Cost and Utilization Project. HCUP sample design: national databases-accessible version [Internet]. Rockville (MD): Agency for Healthcare Research and Quality; 2018 [cited 2021 Nov 1].
    Available from: https://www.hcup-us.ahrq.gov/tech_assist/sampledesign/508_compliance/index508_2018.jsp#nissample.

Article

Original Article

HIRA Research 2021; 1(2): 166-178

Published online November 30, 2021 https://doi.org/10.52937/hira.21.1.2.166

Copyright © Health Insurance Review & Assessment Service.

새로운 환자표본자료 표본 추출 및 대표성 검증

윤철영1, 안재준2, 이경민3, 최용석3, 김리현3, 하대우1, 유기봉2,3

연세대학교 1응용통계학과, 2데이터사이언스학부, 3보건행정학과

Received: October 14, 2021; Revised: November 2, 2021; Accepted: November 2, 2021

Developing the New National Patient Sample and Evaluating Representations

Chul Young Yoon1 , Jae Joon Ahn2 , Gyeongmin Lee3 , Yongseok Choi3 , Lihyun Kim3 , Dae Yoo Ha1 , Ki-Bong Yoo2,3

1Department of Applied Statistics, 2Division of Data Science, and 3Department of Health Administation, Yonsei University, Wonju, Korea

Correspondence to:Ki-Bong Yoo
Department of Health Administation, Yonsei University, Changjo 406, 1 Yeonsedae-gil, Wonju 26493, Korea
Tel: +82-33-760-2458
Fax: +82-33-760-2919
E-mail: ykbong@yonsei.ac.kr

Received: October 14, 2021; Revised: November 2, 2021; Accepted: November 2, 2021

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Abstract

Background: The sampling framework of the National Patient Sample of Health Insurance Review & Assessment Service is needed to be improved due to the current demographic structure. We proposed a sampling method and additional strata for extracting the National Patient Sample data due to the current demographic structure, such as low birth rate and aged population.
Methods: A total of 36 strata were set by adding four strata compared to the existing one. The maximum rate of minimal sample number was defined among the entire strata. Based on the rate, we extracted a small-scale sample dataset consisting of about 400,000 people and a large-scale sample dataset of more than 700,000 people.
Results: The representativeness of the high-frequency disease and the low-frequency disease was confirmed. For health expenditure, the representativeness of samples was confirmed in large-scale samples. However, the representativeness of small-scale samples was not confirmed in five strata.
Conclusion: Using the maximum rate of minimal sample number can reflect the demographic structure changes and diverse medical utilization. Although lack of representativeness in the five strata of the small-scale sample, both the small-scale sample and the large-scale sample are necessary to improve data accessibility and a sustainable data provision system. It will be helpful in establishing health policies and conducting medical research.

Keywords: National patient sample, Sampling studies, Validation study

서 론

우리나라의 건강보험 청구자료는 당연지정제라는 환경에서 대표성이 확보된 자료로 보건의료 관련 정책 및 기술 발전 연구에 기초자료로 이용되고 있다. 청구자료는 일선의 의료기관이 건강보험 청구를 진행하며 축적된 자료로 건강보험심사평가원(심사평가원)과 국민건강보험공단이 각각 관리하고 있고 각 기관에서 여러 가지 방향으로 청구자료를 제공하고 있다.

수요자가 건강보험 청구자료를 이용하는 방법은 다음과 같다. 미리 구축된 표본자료를 이용하거나 맞춤형 자료로 신청하여 추출된 자료를 이용하는 방법이 있다. 심사평가원 및 국민건강보험공단에서 표본자료 및 맞춤형 자료를 제공하는 절차는 유사하다. 최근에는 보건의료기본법 제44조, 보건의료기술진흥법 제10조, 제26조에 근거하여 보건의료 빅데이터 플랫폼을 통해 연계된 자료를 제공하였으며[1], 데이터 3법을 바탕으로 심사평가원, 국민건강보험공단, 한국보건산업진흥원을 데이터 결합기관으로 지정하고 데이터를 결합하여 제공하는 절차를 수립하였다[2].

청구자료가 다양한 절차로 제공되고 있지만 맞춤형으로는 증가하는 수요를 감당하기 어렵다. 수요에 대응하고 접근성과 즉시성을 확보하기 위해서는 표본자료가 중요한 역할을 한다. 이에 심사평가원은 환자표본자료를 개발하고 이를 제공하기 시작하였다[3]. 마찬가지로 국민건강보험공단에서도 표본코호트를 개발하여 제공하기 시작하였다. 환자표본자료는 2010년부터 개발을 시작하였다. 환자표본자료는 전체환자데이터셋(national patient sample, NPS), 입원환자데이터셋(national inpatient sample, NIS), 소아청소년환자데이터셋(pediatric patient sample, PPS), 고령환자데이터셋(aged population sample, APS)으로 구성 및 제공되고 있다. 데이터 제공 연도는 2009년부터 매년 표본 추출 및 제공하고 있다. 국민건강보험공단 표본코호트는 2002년부터의 건강보험 자격 대상자 코호트 자료를 구축하여 제공하고 있다. 세부적인 표본 데이터로는 표본코호트DB, 건강검진코호트DB, 노인코호트DB, 직장여성코호트DB, 영유아검진코호트DB로 구성되어 있다. 환자표본자료와 표본코호트 모두 국민건강보험의 청구자료를 바탕으로 구성되어 있다. 건강보험 빅데이터의 20번 테이블(명세서 일반), 30번 테이블(진료내역), 40번 테이블(상병내역), 53번 테이블(원외처방내역), 요양기관 테이블은 환자표본자료와 표본코호트에 모두 존재한다. 세부 변수로는 요양기관 테이블에서 차이가 나고 나머지는 거의 동일하다. 두 표본자료의 큰 차이점은 자격테이블과 건강검진테이블이다. 자격테이블은 건강보험 자격 대상자에 대한 정보로, 국민건강보험공단이 보험료 징수를 담당하고 있기에 표본코호트에만 존재한다. 자격 정보에는 소득수준의 대리변수로 이용할 수 있는 보험료 납부 분위와 환자의 거주지역, 장애등급 등의 정보가 담겨있다. 마찬가지로 검진 데이터도 국민건강보험공단이 국가검진을 관리하고 있기에 표본코호트에만 존재하고 있다.

환자표본자료가 비록 자격 및 검진 정보가 부족하고 단일 연도 데이터라는 한계가 있지만, 접근성 및 연도별 대표성 측면에서 사용자에게 선호되는 특성이 있다. 환자표본자료는 처방양상을 분석하거나[4,5] 질병부담 측정[6], 의료이용행태 보고 연구[7,8] 등을 수행하는 데 주로 이용되고 있으며, 환자표본자료를 이용하여 시장분석을 수행하는 벤처기업 및 제약회사가 있을 정도로 산학계 여러 방면에서 활용도가 높은 상황이다. 질병 위험요인 연구[9]에도 일부 이용되고 있지만, 주요 활용도는 연도별 대표성을 기반으로 신속하게 현황 및 추세를 보고하는 데 주로 사용되고 있기에 사회적으로 수요가 매우 높은 자료원이라 볼 수 있다.

다만 2010년부터 환자표본자료의 개발 및 추출을 시작한 이후로 추출 틀에 대한 변경이 없었기에 연도별 대표성에 대한 보완의 필요성이 제기되고 있는 상황이다. 저출산 고령화 및 의료이용 패턴의 변화를 반영하여 새로운 층의 도입이 요구되고 있다. 2012년 의료비통계연보와 2020년 의료비통계연보에서 연령별 요양급여비용을 비교하였을 때, 만 0세 기준 2012년에는 634,087,591천 원이 지출되었지만 2020년에는 807,674,274천 원이 지출되었고, 명세서 건당 요양급여비용은 2012년에는 약 26,000원 수준이었지만 2020년에는 85,000원 수준으로 증가하였다[10,11]. 보장성 강화 및 수가 인상을 감안하더라도 2012년 출생아 수가 약 48만 명, 2020년 출생아 수가 약 27만 명으로 큰 폭으로 감소하였음에도 불구하고 영유아 층에서 의료비가 많이 발생한다는 것은 그만큼 의료비의 분산이 클 수 있다는 것을 의미한다[12,13]. 더불어 80세 이상 인구의 비율이 2012년 2.1%에서 2020년 3.6%로 큰 폭으로 늘었다. 노인 의료비의 경우 금액이 많고 분산이 크기 때문에 표본 추출 층을 조금 더 세분화할 필요가 있다[14]. 이렇게 인구구조가 변화하였지만, 기존의 환자표본자료는 영유아 층을 4세 이하, 5-9세로 구분하고 있으며 고령층의 경우 75세 이상을 한 개의 층으로 설정한 상황이기에 현재의 인구구조를 반영한 환자표본자료 표본 추출 틀을 보완할 필요성이 제기된 상황이다.

따라서 이 연구에서는 저출산 고령화의 현황에 맞는 환자표본자료 추출방법과 층을 제안하고, 이를 토대로 추출한 환자표본자료를 제시하고자 한다. 대표성을 확보하여 보다 근거수준이 높은 연구를 수행하는 데 도움이 될 것이다.

방 법

저출산 고령화에 따라 지속적으로 변화하고 있는 인구구조를 반영하기 위해 표본 추출 층과 방법을 제안하고 이에 맞추어 표본 추출을 진행하고, 대표성을 검증하고자 한다.

1. 표본 추출 층

표본 추출 층화 변수로는 연령과 성을 선택하였다.사전에 수행된 연구 프로젝트(G000FF8-2020-179)에 기초하였을 때 모집단 실제값과 표본의 모집단 추정값은 주로 저연령 및 고연령에서 크게 차이 나고 있기 때문에 이에 맞추어 연령층을 19세 이전의 5개 구간, 20세 이상은 5세 단위로 나눠 20-79세 12개 구간과 80세 이상 1개 구간, 총 18개 구간으로 구분하고자 한다. 19세 이전의 층은 기존 0-4세, 5-9세, 10-14세, 15-19세에서 0-2세, 3-5세, 6-9세, 10-12세, 13-19세로 구분하였다. 생애주기상 0-2세는 영아기로 구분하고 있으며 3-5세는 미취학 아동기인 유아기로 구분된다. 보통 6-12세는 아동기로 분류하는데, 6-9세는 초등학교 저학년, 10-12세는 초등학교 고학년이고 성장과정에 있기 때문에 두 개 층으로 구분하였다. 13-19세는 청소년기로 한 개의 층으로 설정하였다. 기존 PPS도 0-2세, 3-5세, 6-9세, 10-12세, 13-19세로 구분하고 있으나 NPS, NIS는 5세 단위로 연령을 구분하기에 기준을 통일하였다. 종합적으로 총 36개의 층을 설정하였다.

2. 표본 추출방법

이 연구에서는 2가지의 층화 변수, 총 36개의 층을 사용하는 층화임의추출법을 사용하였다. 각 층마다 표본의 최소 크기는 다음과 같이 진행하였다. 층별 대표 변수는 1인당 총의료비의 로그를 취한 값(Χ)으로 설정하였다. 이는 과거 표본과의 일관성을 유지하기 위함이다[3]. 1인당 총의료비는 경제협력개발기구(Organization for Economic Cooperation and Development, OECD) 등 국제 데이터와의 비교, 재정 추계, 정책 결정에 이용되는 가장 기본적인 변수이기에 대표 변수로 선정하였다. 각 층별로 log (1인당 총의료비)의 표본 평균 를 이용하여 모평균 μ를 추정하기 위한 최소 표본의 크기를 오차한계 기준으로 계산하였다. 오차한계는 표본으로 허용할 수 있는 모집단과의 오차를 뜻하며 다음 수식 1로 계산하였다.

d=Zα/2σn

수식 1에서 α는 신뢰수준이며, Z는 신뢰수준에 대한 Z값(=1.96), d는 100(1-α)%의 오차한계(=5%), σ는 모 표준편차, n은 표본의 수를 뜻한다. 수식 1을 이용하여 100(1-α)%, 5%의 오차한계를 가지는 최소 표본의 수를 구하려면 수식 2를 거쳐 수식 3으로 변형해야 한다.

dZα/2σn
n(Zα/2σd)2

일반적으로 수식 1에서 문제가 되는 부분은 모 표준편차인 σ를 구할 수 없다는 것인데, 이 연구에서는 모분산을 구할 수 있으므로 모 표준편차 σ는 문제가 되지 않는다. 따라서 수식 3을 이용하여 모집단을 추정할 수 있는 층별 표본의 수를 구할 수 있다.

수식 3의 표본의 수(n)는 층별 모분산 값에 따라 달라지므로 층마다 필요한 최소 표본의 수(minimum sample number)가 달라진다. 각 층을 최소 표본의 수만큼 추출하는 경우 층마다 모집단 대비 표본의 비율이 달라질 수 있기 때문에 층별 대표성은 확보될 수 있지만 전체 집단에서의 대표성은 왜곡될 수 있다. 따라서 이 연구에서는 층별 최소 표본의 수를 계산한 이후, 층별 모집단 대비 최소 표본 수의 비율을 계산하고, 이 비율 중 최대값을 기준으로 전체 층의 표본을 추출하는 방법을 사용하였다. 그림 1은 각 층의 최소 표본 수의 비율 중 최대값을 기준으로 각 층의 표본 수를 고려하는 과정을 보여준다. Maximum rate of minimum sample number는 모집단에서 층을 나눌 때 사용되는 각 층의 최소 표본 수의 비율 중 최대값을 나타낸다.

Figure 1. 각 층의 최소 표본 수(minimum sample number, MSN)의 비율 중 최대값을 이용한 전체 표본 수 확보과정.

종합하자면, 이 연구에서는 기존에 비해 연령층을 19세 이전과 고령층에서 층을 추가하여 총 36개 층으로 구성하였고, 표본 추출의 비율을 모집단 전체를 기준으로 선택한 것이 아닌 층별 표본 추출의 비율을 계산하고, 이 중 최대값을 선택하여 표본 추출의 비율로 결정하였다.

3. 신규 데이터 구축

이 연구에서 제안하는 표본은 기존 환자표본자료의 형태에 맞추어 전체 환자, 입원환자, 소아·청소년 환자 그리고 고령 환자로 나누고 단면 표본으로 구축하였다. 보안에 대한 우려가 있기 때문에 최소한의 대표성을 확보하는 소규모 표본자료와 기존의 심사평가원의 표본 데이터의 크기와 비슷한 100만 명 규모의 대규모 표본자료로 구분하여 구축하였다. 최소 표본 수의 비율 중 최대값을 적용하였을 때 NPS, NIS에서 약 40만 수준으로 도출되었기 때문에 PPS, APS 소규모 표본자료도 약 40만으로 구성하였다. 신규 데이터는 심사평가원 내부의 보안기준을 거친 2018년 청구자료 전체를 이용하였다.

4. 신규 데이터 대표성 검증

상병 빈도는 SAS ver. 9.4의 PROC SURVEY -FREQ (SAS Institute Inc., Cary, NC, USA), 1인당 총의료비 등의 연속형 자료의 검증은 SAS ver. 9.4의 PROC SURVEYMEANS (SAS Institute Inc.)를 이용하여 검정하였다. SAS ver. 9.4의 SURVEY 프로시저(SAS Institute Inc.)는 표본 데이터로부터 모집단의 추정값과 표준오차, 신뢰구간을 계산하는 데 이용한다. SURVEY 프로시저 수행 시에는 표본 추출과정에서 계산된 층별 가중치를 적용하였다.

결 과

1. 층별 현황

층별 모집단 수와 최소 표본의 수, 추출비율은 표1과 같다. 층별 분산을 바탕으로 최소 표본의 수를 계산하였고, 모집단 수에 최소 표본의 수를 나누어 추출비율을 결정하였다. NPS의 경우 추출비율 최대값이 남성 80세 이상 층 약 0.007795, NIS는 여성 10-12세 0.05204로, PPS는 여성 2세 이하 층0.002863, APS는 남성 80세 이상 층 약 0.007795로 확인되었다(표 1).

Table 1 . 층별 모집단 수와 최소 표본의 수, 추출비율.

표본연령(세)모집단 수(명)최소 표본수(명)층별 추출 비율



NPS≤2758,733716,6292,0732,0520.0027320.002863
3-5887,767843,2811,5781,5300.0017770.001814
6-91,137,8691,073,0311,6871,7900.0014830.001668
10-12851,996803,0752,2082,1370.0025920.002661
13-191,962,6601,876,4502,5652,2100.0013070.001178
20-241,712,1511,737,3612,8462,4440.0016620.001407
25-291,786,2141,757,9332,7922,8200.0015630.001604
30-341,720,4771,766,2412,8473,1920.0016550.001807
35-392,078,0152,139,9002,9553,0880.0014220.001443
40-442,058,2972,112,2793,1123,0180.0015120.001429
45-492,360,9782,440,3023,2843,0700.0013910.001258
50-542,236,6722,329,9153,5233,0360.0015750.001303
55-592,330,5552,430,8253,5422,8640.0015200.001178
60-641,875,8471,983,0453,7572,9750.0020030.001500
65-691,310,6371,436,5613,7442,8650.0028570.001994
70-74980,2081,161,8003,9043,0200.0039830.002599
75-79770,5711,074,8903,9523,2830.0051290.003054
≥80586,1051,209,9914,5694,8010.0077950.003968
NIS≤2200,186173,1281,8351,8060.0091660.010432
3-5100,74686,8341,4261,3970.0141550.016090
6-979,17364,9381,5091,4530.0190590.022378
10-1243,86931,9951,6041,6650.0365680.052038
13-19125,92497,7321,7061,7050.0135490.017445
20-24109,684108,1811,7301,7520.0157730.016195
25-29106,583165,0221,9391,5430.0181920.009353
30-34112,118241,5571,9681,3560.0175520.005615
35-39151,530230,5182,0891,8580.0137880.008058
40-44156,333179,3962,2922,2610.0146590.012606
45-49195,720226,7632,4672,3430.0126050.010331
50-54219,249256,7702,6682,3580.0121700.009182
55-59276,240302,8912,7172,2820.0098350.007535
60-64251,387260,8202,7932,2870.0111100.008769
65-69196,671201,0352,5422,0970.0129270.010431
70-74170,319179,9112,5452,0970.0149430.011657
75-79161,005215,9452,4962,3070.0155000.010684
≥80177,550383,3672,8432,9680.0160110.007741
PPS≤2758,733716,6292,0732,0520.0027320.002863
3-5887,767843,2811,5781,5300.0017770.001814
6-91,137,8691,073,0311,6871,7900.0014830.001668
10-12851,996803,0752,2082,1370.0025920.002661
13-191,962,6601,876,4502,5652,2100.0013070.001178
APS≤691,310,6371,436,5613,7442,8650.0028570.001994
70-74980,2081,161,8003,9043,0200.0039830.002599
75-79770,5711,074,8903,9523,2830.0051290.003054
≥80586,1051,209,9914,5694,8010.0077950.003968

NPS, national patient sample; NIS, national inpatient sample; PPS, pediatric patient sample; APS, aged population sample..



2. 표본의 일반적 현황

소규모에서 NPS, NIS는 위 추출비율 중 최대값으로 하였을 때 약 40만 정도의 규모이고, APS와 PPS는 일관성을 위해 추출비율 중 최대값보다 더 크게 늘려 APS는 0.042945, PPS는 0.054565로 설정하여 표본 추출하였다. 대규모 데이터의 경우 NPS는 100만 규모, NIS와 PPS, APS는 기존 표본자료와 동일한 수치로 설정하여 NPS는 0.021, NIS, PPS, APS는 각 0.1로 추출 진행하였다. 진행된 표본에서의 환자 수 및 명세서 건수는 표 2와 같다.

Table 2 . 표본자료의 데이터 수.

표본소규모대규모


환자 수(명)명세서 건수(건)환자 수(명)명세서 건수(건)
NPS385,4547,638,8651,038,38820,546,234
NIS394,91013,701,712758,87026,347,433
PPS408,0546,800,288950,16915,793,300
APS394,68215,734,081723,32128,841,428

NPS, national patient sample; NIS, national inpatient sample; PPS, pediatric patient sample; APS, aged population sample..



3. 대표성 검증

NPS, NIS, PPS, APS의 소규모, 대규모 표본에있어 상병 및 1인당 총의료비의 대표성을 검증하였다. 모집단의 통계값인 실제 수치가 표본자료의 신뢰구간에 포함이 된다면 대표성이 있다고 판단할 수 있다. 상병 중 다빈도와 저빈도 상병을 1개씩 선정하여 대표성을 확인하였고 표 3에 제시하였다.

Table 3 . 다빈도 및 저빈도 상병 대표성 검증.

표본상병실제(건)소규모대규모


추정신뢰구간추정신뢰구간


하한상한하한상한
NPSK0516,232,82016,265,56416,194,42216,336,70516,236,84816,193,52016,280,176
C805,8856,2864,5268,0455,0484,0876,008
NISA091,133,0111,135,5031,127,4361,143,5701,132,9801,127,1631,138,797
C7812,90813,12512,14214,10813,23012,51813,942
PPSJ302,807,2082,800,1482,787,3232,812,9732,803,5172,795,1132,811,922
C912,6632,6312,1463,1162,7502,4253,075
APSI102,795,0662,797,2042,786,2562,808,1522,800,2062,792,1182,808,295
C787,3587,1476,4387,8567,6207,0798,161

NPS, national patient sample; NIS, national inpatient sample; PPS, pediatric patient sample; APS, aged population sample..



NPS, NIS, PPS, APS의 소규모, 대규모 표본의 성별, 연령별 1인당 총의료비의 대표성을 검증하였고, 표 4-7에 각각 제시하였다. NPS의 경우, 소규모에서 6-9세, 10-12세 여성과 40-44세 남성의 경우 1인당 총의료비 실제값이 추정값의 신뢰구간 범위 내에 있지 않아 낮은 대표성을 확인하였고, 대규모에서는 모든 층에서 대표성을 확인하였다. NIS의 경우, 대규모에서는 모든 층에서 대표성을 확인하였으나 소규모에서 10-12세와 75-79세 남성의 경우 1인당 총의료비 실제값이 추정값의 신뢰구간 범위 내에 있지 않아 낮은 대표성을 확인하였다. PPS와 APS는 모든 성별, 연령 구간에서 1인당 총의료비 실제값이 추정값의 신뢰구간 내에 포함되기 때문에 대표성을 만족함을 확인하였다.

Table 4 . NPS 표본 성별, 연령별 1인당 총의료비 대표성 검증.

연령(세)성별실제(원)소규모대규모


추정하한상한추정하한상한
≤21,322,3021,453,2721,197,8101,708,7351,391,0951,255,2081,526,982
1,173,3501,231,3441,052,6351,410,0521,168,5631,068,1551,268,972
3-5733,924709,332677,806740,858738,289694,678781,899
671,396663,243632,169694,318722,105644,989799,221
6-9542,950558,833490,093627,572543,515507,122579,908
533,463512,236496,056528,416522,641506,211539,071
10-12460,592459,516413,492505,539435,666403,173468,158
382,659356,036335,886376,186390,748349,368432,128
13-19467,012442,143410,711473,575507,013449,390564,635
388,055378,898362,418395,378389,456374,195404,717
20-24477,387499,964402,072597,856473,840450,790496,890
496,200495,035471,680518,391484,415471,389497,442
25-29502,568583,750394,206773,294498,456468,951527,961
702,024677,819650,341705,297693,885673,286714,483
30-34581,526553,662504,377602,948628,955519,464738,446
964,073963,280921,8981,004,662957,165931,332982,999
35-39681,893732,967634,606831,328673,073638,013708,133
897,088895,233823,791966,675917,905887,527948,284
40-44824,574779,297735,674822,919865,217821,812908,622
892,348896,995844,835949,155892,543859,030926,055
45-491,011,337977,615925,4761,029,7541,016,375975,2151,057,535
1,045,4521,051,535991,7401,111,3291,027,281999,0671,055,494
50-541,295,9861,265,2381,185,5521,344,9251,273,6051,227,2151,319,996
1,309,1681,287,5351,230,7601,344,3111,302,6341,264,5091,340,759
55-591,662,1841,727,4301,638,1671,816,6921,644,3941,595,6911,693,096
1,567,5721,555,3871,493,5641,617,2111,579,3031,540,3611,618,246
60-642,130,1352,194,7042,083,5132,305,8962,118,6682,050,6162,186,721
1,918,6991,911,1691,829,6661,992,6731,910,9251,857,4061,964,444
65-692,990,5662,882,6712,742,2223,023,1202,972,0682,882,5463,061,590
2,665,0342,725,9412,610,8912,840,9902,636,5172,563,9432,709,091
70-743,665,5823,881,3613,655,9134,106,8093,628,7793,510,8913,746,668
3,263,9793,246,7043,094,6033,398,8053,296,8553,200,5583,393,152
75-794,166,5964,253,6424,006,0244,501,2594,139,1383,996,3254,281,952
4,034,1074,044,9033,862,5184,227,2874,072,1693,957,6384,186,701
≥805,102,5055,163,5804,846,8415,480,3185,117,1174,936,3825,297,851
5,280,9125,267,6785,066,1615,469,1965,339,0265,216,3325,461,719

NPS, national patient sample..



Table 5 . NIS 표본 성별, 연령별 1인당 총의료비 대표성 검증.

연령(세)성별실제(원)소규모대규모


추정하한상한추정하한상한
≤23,083,3173,108,9952,809,7193,408,2703,160,2172,989,8593,330,576
2,900,9842,836,5122,613,7863,059,2382,837,3142,675,6262,999,003
3-52,051,8052,120,3171,934,2642,306,3712,015,0491,924,0362,106,062
1,974,1682,086,7191,855,7162,317,7231,974,5701,895,6482,053,493
6-92,033,0372,056,8611,870,5672,243,1552,042,5611,923,2962,161,825
1,991,4681,899,8121,796,7872,002,8382,013,3431,847,9322,178,755
10-122,288,9192,005,4561,774,7612,236,1522,371,8232,039,8122,703,835
2,209,5952,211,8951,807,0712,616,7192,416,1302,020,1052,812,155
13-192,724,1242,695,0822,443,8802,946,2852,636,5112,499,1212,773,902
2,376,6442,383,8442,227,7212,539,9672,423,5822,303,9762,543,188
20-242,699,9912,804,2892,647,1382,961,4412,813,1882,652,3422,974,034
2,484,7282,430,2412,328,9382,531,5442,498,5752,404,1592,592,992
25-292,820,6272,783,6612,628,7852,938,5372,847,3952,735,1912,959,599
2,838,4572,826,2342,729,2522,923,2152,836,8172,737,9632,935,672
30-343,014,3683,078,1892,904,8873,251,4903,091,3082,956,0613,226,555
3,208,2943,233,0353,133,0903,332,9803,183,7243,130,4643,236,984
35-393,468,8943,412,8293,248,5693,577,0893,470,9463,328,6823,613,209
3,589,4633,571,1193,479,8513,662,3873,637,5553,555,6743,719,437
40-444,236,5664,317,4534,124,2694,510,6374,206,5194,073,8234,339,214
4,109,2304,102,6793,962,5224,242,8354,089,8403,992,9944,186,687
45-495,136,6915,058,6174,880,2145,237,0215,137,9525,008,4185,267,486
4,516,9144,577,2134,431,5324,722,8934,562,0754,464,7894,659,361
50-545,993,1946,190,5565,989,3686,391,7445,930,6175,802,9966,058,239
4,854,5264,859,1214,730,0274,988,2144,848,2724,750,9934,945,552
55-596,790,5606,659,5886,487,1066,832,0716,817,9036,696,6136,939,192
5,323,4645,273,5825,153,4005,393,7645,280,3385,193,1195,367,557
60-647,834,9768,038,0197,830,8678,245,1717,775,8767,637,7417,914,010
6,132,5956,058,2895,908,4016,208,1776,056,8875,952,5526,161,222
65-699,101,2519,201,0748,963,0989,439,0509,119,4328,958,9359,279,929
7,378,3417,409,8237,239,4927,580,1537,341,6187,223,1797,460,057
70-7410,046,25110,183,7999,932,43010,435,1699,903,0329,726,16510,079,900
8,552,0428,420,6478,231,9308,609,3638,510,9228,372,4018,649,442
75-7910,353,12710,105,4439,862,26310,348,62410,274,65510,090,38310,458,927
9,738,1539,928,6439,735,17610,122,1109,705,9229,568,4649,843,380
≥8011,021,63711,049,59010,799,53111,299,64911,005,64610,825,03311,186,259
11,715,76511,678,08311,514,61211,841,55411,673,53111,558,23011,788,833

NIS, national inpatient sample..



Table 6 . PPS 표본 성별, 연령별 1인당 총의료비 대표성 검증.

연령(세)성별실제(원)소규모대규모


추정하한상한추정하한상한
≤21,322,3021,369,5711,279,7771,459,3661,312,7051,260,1711,365,239
1,173,3501,223,7871,141,5991,305,9751,205,8301,149,3421,262,317
3-5733,924716,154694,180738,127730,976714,488747,464
671,396673,134651,636694,631669,073656,513681,633
6-9542,950531,117516,081546,153545,236526,242564,231
533,463548,032523,843572,221535,585521,852549,319
10-12460,592455,561419,898491,224446,940429,893463,986
382,659397,085371,351422,818376,167360,487391,847
13-19467,012496,237446,422546,052466,502450,246482,758
388,055389,531372,431406,631395,753383,302408,204

PPS, pediatric patient sample..



Table 7 . APS 표본 성별, 연령별 1인당 총의료비 대표성 검증.

연령(세)성별실제(원)소규모대규모


추정하한상한추정하한상한
65-692,990,5662,939,1542,882,7972,995,5122,998,5952,955,2753,041,914
2,665,0342,639,7932,597,6862,681,9002,669,4562,637,6182,701,294
70-743,665,5823,624,7683,546,4643,703,0713,710,4323,651,7613,769,103
3,263,9793,301,6173,240,5713,362,6643,252,3753,210,3923,294,358
75-794,166,5964,132,7684,041,6824,223,8544,205,3334,137,0554,273,611
4,034,1074,000,1303,932,9334,067,3264,014,2273,964,2984,064,157
≥805,102,5055,176,9585,060,7195,293,1975,086,4635,002,0115,170,915
5,280,9125,244,6685,168,8225,320,5145,308,9775,252,9315,365,022

APS, aged population sample..


고 찰

이 연구에서는 새로운 표본 추출방법을 적용하여소규모와 대규모의 표본자료를 구축하였다. 기존 표본과의 차이점은 표본 추출비율을 산정하는 방식이 다르고 연령층이 다르다. 기존 표본 추출의 경우 전체 인구 모집단을 바탕으로 필요 표본의 수를 계산하고 이에 맞추어 각 연령, 성별 계층에서 표본을 추출하였다[3]. 각 연령, 성별 계층별로 대표성을 확보할 수 있는 최소 표본의 수 및 표본 추출비율을 계산하고, 층별 표본 추출비율 중 가장 큰 값을 기준으로 표본 추출을 진행하였다. 기존의 필요 표본의 수를 계산하는 방식을 적용해도 이론적으로 현재 대표성을 확보할 수 있는 수준이지만, 제안한 연구방법을 적용할 경우 다음과 같은 장점이 있다. 인구구조 및 의료이용행태가 급격하게 변하면 개별 층에서 대표 변수인 의료비의 분산이 크게 변동될 여지가 있다. 이 경우 기존 표본 추출방식으로 진행하는 경우 일부 층에서 늘어난 분산을 담보할 수 있는 최소 표본의 수를 추출하지 못할 가능성이 있다. 이 연구에서 제안하는 표본 추출방식을 적용하는 경우 매번 층마다 분산을 계산하여 추출비율을 결정하는 과정을 거치지만, 층을 추가하지 않고도 대표성을 담보할 수 있다는 것이다. 더불어 인구의 저출산 고령화 추세를 반영하기 위해 저연령과 고령층에서 각각 1개 층씩 추가하여 기존 16개 연령층에서 18개 연령층으로 확대했다.

대규모 표본에서는 1인당 총의료비의 대표성이 모두 충족되었지만, NPS, NIS의 소규모 표본 중 일부 연령층에서 추정값의 신뢰구간이 실제값을 포함하지 못한 것이 확인되었다. 층별 1인당 총의료비는 의료급여, 요양병원, 희귀질환 등의 영향으로 분산이 크다. 소규모 표본에서는 무작위 표본 추출을 진행할 시 극단 치의 영향이 커, 이로 인해 대표성에서 벗어난 것으로 여겨진다. 대표성이 약간 어긋나 있다 하더라도 소규모 표본으로 자료의 접근성을 향상하는 것이 활용도를 높이는 데 도움이 될 것이기에 제안하고자 한다. 데이터 3법이 통과하고 가명 정보방식으로 동의 없이 제3자에게 환자표본자료를 직접 제공하는 방식이 법적으로 가능하지만, 청구자료라는 특수성 때문에 소규모 표본과 대규모 표본으로 이원화하여 공개수준을 구분하는 것도 지속 가능한 데이터 제공을 위한 선택 전략일 것이다.

저빈도 상병 일부의 대표성을 확인하였지만, 무작위 추출로 구축한 표본자료라는 한계상 모집단에서 청구빈도가 적은 희귀질환의 경우 대표성이 떨어질 수 있다. 환자표본자료를 적절히 이용하기 위해서는 가급적 유병률이나 발생률이 어느 정도 수준이 되는 상병을 연구대상으로 하거나 어느 정도 규모가 있는 인구집단을 연구대상으로 선정하는 것이 중요하다.

국민건강보험공단의 표본코호트 데이터베이스의 경우 층화계통추출 비례배분법으로 표본을 구축하였다[15]. 층화 변수로는 연령·성별 보험료 분위 및 지역으로 총 1,476층을 포함하였다. 층은 표본코호트 2.0이 되면서 2,142층으로 더 추가하였다. 층별 대표 변수로 연간 의료비를 선택하였다. 층별 표본은 층의 모집단 의료비와 표본의 의료비의 오차비율이 5%가 넘지 않도록 반복 추출하였다. 대만의National Health Insurance Research Database의 경우 연령, 성별, 지역을 대표 변수로 설정하였으며 2016년부터는 전체 인구 데이터셋을 제공하고 있다[16]. 위 선행연구 사례에 맞추어 소규모 표본의 대표성을 향상시키는 방법으로는 개인의 자격 정보를 연계시키는 방법이 가장 효과적일 것이다. 자격 정보에 있는 지역, 보험료 수준 및 장애 정보 등을 활용한다면 대표성을 더욱 강화할 수 있을 것이다. 의료비 변수는 왜도가 매우 높은 변수이기 때문에 층화계통추출을 사용하는 것이 효율적이라 볼 수 있다. 이 연구에서는 층화임의추출 방법을 사용하였는데, 자격 정보 없이 의료비 순으로 정렬할 경우 소득 분위 및 의료급여 등의 정보에 따라 패턴이 발생할 수 있으며, 층의 수도 표본코호트에 비해 적기 때문에 기존의 임의추출방법을 유지하였다. 미국 Agency for Healthcare Research and Quality (AHRQ)에서 제공하고 있는 National Inpatient Sample의 경우 층화계통추출을 진행하였으며, 대표 변수로 지역, 수련병원 여부, 의료기관 운영 주체 및 침상 수로 설정하였다[17]. AHRQ의 National Inpatient Sample의 경우 환자보다는 대표성 있는 입원자료 구축이 목적이기 때문에 환자표본자료와는 추구하는 방향이 달라 의료이용 변수를 추출 틀에 포함하지 않았다.

현재 우리나라에서 보건의료 관련 연구를 하는 데 있어 청구자료가 가지고 있는 가치는 상당히 높다. 청구자료 중 가장 접근성이 높은 환자표본자료를 지속적으로 관리 및 제공하는 것이 좀 더 세밀한 국가 정책 수립 및 보건의료 연구를 수행하는 데 도움이 될 수 있을 것이다.

감사의 글


이 논문은 2020년 건강보험심사평가원의 지원을받아 수행된 연구이다(환자표본자료 구축 방안 및 활용 실태 조사, 2020, G000FF8-2020-179).

Fig 1.

Figure 1.각 층의 최소 표본 수(minimum sample number, MSN)의 비율 중 최대값을 이용한 전체 표본 수 확보과정.
HIRA Research 2021; 1: 166-178https://doi.org/10.52937/hira.21.1.2.166

Table 1 . 층별 모집단 수와 최소 표본의 수, 추출비율.

표본연령(세)모집단 수(명)최소 표본수(명)층별 추출 비율



NPS≤2758,733716,6292,0732,0520.0027320.002863
3-5887,767843,2811,5781,5300.0017770.001814
6-91,137,8691,073,0311,6871,7900.0014830.001668
10-12851,996803,0752,2082,1370.0025920.002661
13-191,962,6601,876,4502,5652,2100.0013070.001178
20-241,712,1511,737,3612,8462,4440.0016620.001407
25-291,786,2141,757,9332,7922,8200.0015630.001604
30-341,720,4771,766,2412,8473,1920.0016550.001807
35-392,078,0152,139,9002,9553,0880.0014220.001443
40-442,058,2972,112,2793,1123,0180.0015120.001429
45-492,360,9782,440,3023,2843,0700.0013910.001258
50-542,236,6722,329,9153,5233,0360.0015750.001303
55-592,330,5552,430,8253,5422,8640.0015200.001178
60-641,875,8471,983,0453,7572,9750.0020030.001500
65-691,310,6371,436,5613,7442,8650.0028570.001994
70-74980,2081,161,8003,9043,0200.0039830.002599
75-79770,5711,074,8903,9523,2830.0051290.003054
≥80586,1051,209,9914,5694,8010.0077950.003968
NIS≤2200,186173,1281,8351,8060.0091660.010432
3-5100,74686,8341,4261,3970.0141550.016090
6-979,17364,9381,5091,4530.0190590.022378
10-1243,86931,9951,6041,6650.0365680.052038
13-19125,92497,7321,7061,7050.0135490.017445
20-24109,684108,1811,7301,7520.0157730.016195
25-29106,583165,0221,9391,5430.0181920.009353
30-34112,118241,5571,9681,3560.0175520.005615
35-39151,530230,5182,0891,8580.0137880.008058
40-44156,333179,3962,2922,2610.0146590.012606
45-49195,720226,7632,4672,3430.0126050.010331
50-54219,249256,7702,6682,3580.0121700.009182
55-59276,240302,8912,7172,2820.0098350.007535
60-64251,387260,8202,7932,2870.0111100.008769
65-69196,671201,0352,5422,0970.0129270.010431
70-74170,319179,9112,5452,0970.0149430.011657
75-79161,005215,9452,4962,3070.0155000.010684
≥80177,550383,3672,8432,9680.0160110.007741
PPS≤2758,733716,6292,0732,0520.0027320.002863
3-5887,767843,2811,5781,5300.0017770.001814
6-91,137,8691,073,0311,6871,7900.0014830.001668
10-12851,996803,0752,2082,1370.0025920.002661
13-191,962,6601,876,4502,5652,2100.0013070.001178
APS≤691,310,6371,436,5613,7442,8650.0028570.001994
70-74980,2081,161,8003,9043,0200.0039830.002599
75-79770,5711,074,8903,9523,2830.0051290.003054
≥80586,1051,209,9914,5694,8010.0077950.003968

NPS, national patient sample; NIS, national inpatient sample; PPS, pediatric patient sample; APS, aged population sample..


Table 2 . 표본자료의 데이터 수.

표본소규모대규모


환자 수(명)명세서 건수(건)환자 수(명)명세서 건수(건)
NPS385,4547,638,8651,038,38820,546,234
NIS394,91013,701,712758,87026,347,433
PPS408,0546,800,288950,16915,793,300
APS394,68215,734,081723,32128,841,428

NPS, national patient sample; NIS, national inpatient sample; PPS, pediatric patient sample; APS, aged population sample..


Table 3 . 다빈도 및 저빈도 상병 대표성 검증.

표본상병실제(건)소규모대규모


추정신뢰구간추정신뢰구간


하한상한하한상한
NPSK0516,232,82016,265,56416,194,42216,336,70516,236,84816,193,52016,280,176
C805,8856,2864,5268,0455,0484,0876,008
NISA091,133,0111,135,5031,127,4361,143,5701,132,9801,127,1631,138,797
C7812,90813,12512,14214,10813,23012,51813,942
PPSJ302,807,2082,800,1482,787,3232,812,9732,803,5172,795,1132,811,922
C912,6632,6312,1463,1162,7502,4253,075
APSI102,795,0662,797,2042,786,2562,808,1522,800,2062,792,1182,808,295
C787,3587,1476,4387,8567,6207,0798,161

NPS, national patient sample; NIS, national inpatient sample; PPS, pediatric patient sample; APS, aged population sample..


Table 4 . NPS 표본 성별, 연령별 1인당 총의료비 대표성 검증.

연령(세)성별실제(원)소규모대규모


추정하한상한추정하한상한
≤21,322,3021,453,2721,197,8101,708,7351,391,0951,255,2081,526,982
1,173,3501,231,3441,052,6351,410,0521,168,5631,068,1551,268,972
3-5733,924709,332677,806740,858738,289694,678781,899
671,396663,243632,169694,318722,105644,989799,221
6-9542,950558,833490,093627,572543,515507,122579,908
533,463512,236496,056528,416522,641506,211539,071
10-12460,592459,516413,492505,539435,666403,173468,158
382,659356,036335,886376,186390,748349,368432,128
13-19467,012442,143410,711473,575507,013449,390564,635
388,055378,898362,418395,378389,456374,195404,717
20-24477,387499,964402,072597,856473,840450,790496,890
496,200495,035471,680518,391484,415471,389497,442
25-29502,568583,750394,206773,294498,456468,951527,961
702,024677,819650,341705,297693,885673,286714,483
30-34581,526553,662504,377602,948628,955519,464738,446
964,073963,280921,8981,004,662957,165931,332982,999
35-39681,893732,967634,606831,328673,073638,013708,133
897,088895,233823,791966,675917,905887,527948,284
40-44824,574779,297735,674822,919865,217821,812908,622
892,348896,995844,835949,155892,543859,030926,055
45-491,011,337977,615925,4761,029,7541,016,375975,2151,057,535
1,045,4521,051,535991,7401,111,3291,027,281999,0671,055,494
50-541,295,9861,265,2381,185,5521,344,9251,273,6051,227,2151,319,996
1,309,1681,287,5351,230,7601,344,3111,302,6341,264,5091,340,759
55-591,662,1841,727,4301,638,1671,816,6921,644,3941,595,6911,693,096
1,567,5721,555,3871,493,5641,617,2111,579,3031,540,3611,618,246
60-642,130,1352,194,7042,083,5132,305,8962,118,6682,050,6162,186,721
1,918,6991,911,1691,829,6661,992,6731,910,9251,857,4061,964,444
65-692,990,5662,882,6712,742,2223,023,1202,972,0682,882,5463,061,590
2,665,0342,725,9412,610,8912,840,9902,636,5172,563,9432,709,091
70-743,665,5823,881,3613,655,9134,106,8093,628,7793,510,8913,746,668
3,263,9793,246,7043,094,6033,398,8053,296,8553,200,5583,393,152
75-794,166,5964,253,6424,006,0244,501,2594,139,1383,996,3254,281,952
4,034,1074,044,9033,862,5184,227,2874,072,1693,957,6384,186,701
≥805,102,5055,163,5804,846,8415,480,3185,117,1174,936,3825,297,851
5,280,9125,267,6785,066,1615,469,1965,339,0265,216,3325,461,719

NPS, national patient sample..


Table 5 . NIS 표본 성별, 연령별 1인당 총의료비 대표성 검증.

연령(세)성별실제(원)소규모대규모


추정하한상한추정하한상한
≤23,083,3173,108,9952,809,7193,408,2703,160,2172,989,8593,330,576
2,900,9842,836,5122,613,7863,059,2382,837,3142,675,6262,999,003
3-52,051,8052,120,3171,934,2642,306,3712,015,0491,924,0362,106,062
1,974,1682,086,7191,855,7162,317,7231,974,5701,895,6482,053,493
6-92,033,0372,056,8611,870,5672,243,1552,042,5611,923,2962,161,825
1,991,4681,899,8121,796,7872,002,8382,013,3431,847,9322,178,755
10-122,288,9192,005,4561,774,7612,236,1522,371,8232,039,8122,703,835
2,209,5952,211,8951,807,0712,616,7192,416,1302,020,1052,812,155
13-192,724,1242,695,0822,443,8802,946,2852,636,5112,499,1212,773,902
2,376,6442,383,8442,227,7212,539,9672,423,5822,303,9762,543,188
20-242,699,9912,804,2892,647,1382,961,4412,813,1882,652,3422,974,034
2,484,7282,430,2412,328,9382,531,5442,498,5752,404,1592,592,992
25-292,820,6272,783,6612,628,7852,938,5372,847,3952,735,1912,959,599
2,838,4572,826,2342,729,2522,923,2152,836,8172,737,9632,935,672
30-343,014,3683,078,1892,904,8873,251,4903,091,3082,956,0613,226,555
3,208,2943,233,0353,133,0903,332,9803,183,7243,130,4643,236,984
35-393,468,8943,412,8293,248,5693,577,0893,470,9463,328,6823,613,209
3,589,4633,571,1193,479,8513,662,3873,637,5553,555,6743,719,437
40-444,236,5664,317,4534,124,2694,510,6374,206,5194,073,8234,339,214
4,109,2304,102,6793,962,5224,242,8354,089,8403,992,9944,186,687
45-495,136,6915,058,6174,880,2145,237,0215,137,9525,008,4185,267,486
4,516,9144,577,2134,431,5324,722,8934,562,0754,464,7894,659,361
50-545,993,1946,190,5565,989,3686,391,7445,930,6175,802,9966,058,239
4,854,5264,859,1214,730,0274,988,2144,848,2724,750,9934,945,552
55-596,790,5606,659,5886,487,1066,832,0716,817,9036,696,6136,939,192
5,323,4645,273,5825,153,4005,393,7645,280,3385,193,1195,367,557
60-647,834,9768,038,0197,830,8678,245,1717,775,8767,637,7417,914,010
6,132,5956,058,2895,908,4016,208,1776,056,8875,952,5526,161,222
65-699,101,2519,201,0748,963,0989,439,0509,119,4328,958,9359,279,929
7,378,3417,409,8237,239,4927,580,1537,341,6187,223,1797,460,057
70-7410,046,25110,183,7999,932,43010,435,1699,903,0329,726,16510,079,900
8,552,0428,420,6478,231,9308,609,3638,510,9228,372,4018,649,442
75-7910,353,12710,105,4439,862,26310,348,62410,274,65510,090,38310,458,927
9,738,1539,928,6439,735,17610,122,1109,705,9229,568,4649,843,380
≥8011,021,63711,049,59010,799,53111,299,64911,005,64610,825,03311,186,259
11,715,76511,678,08311,514,61211,841,55411,673,53111,558,23011,788,833

NIS, national inpatient sample..


Table 6 . PPS 표본 성별, 연령별 1인당 총의료비 대표성 검증.

연령(세)성별실제(원)소규모대규모


추정하한상한추정하한상한
≤21,322,3021,369,5711,279,7771,459,3661,312,7051,260,1711,365,239
1,173,3501,223,7871,141,5991,305,9751,205,8301,149,3421,262,317
3-5733,924716,154694,180738,127730,976714,488747,464
671,396673,134651,636694,631669,073656,513681,633
6-9542,950531,117516,081546,153545,236526,242564,231
533,463548,032523,843572,221535,585521,852549,319
10-12460,592455,561419,898491,224446,940429,893463,986
382,659397,085371,351422,818376,167360,487391,847
13-19467,012496,237446,422546,052466,502450,246482,758
388,055389,531372,431406,631395,753383,302408,204

PPS, pediatric patient sample..


Table 7 . APS 표본 성별, 연령별 1인당 총의료비 대표성 검증.

연령(세)성별실제(원)소규모대규모


추정하한상한추정하한상한
65-692,990,5662,939,1542,882,7972,995,5122,998,5952,955,2753,041,914
2,665,0342,639,7932,597,6862,681,9002,669,4562,637,6182,701,294
70-743,665,5823,624,7683,546,4643,703,0713,710,4323,651,7613,769,103
3,263,9793,301,6173,240,5713,362,6643,252,3753,210,3923,294,358
75-794,166,5964,132,7684,041,6824,223,8544,205,3334,137,0554,273,611
4,034,1074,000,1303,932,9334,067,3264,014,2273,964,2984,064,157
≥805,102,5055,176,9585,060,7195,293,1975,086,4635,002,0115,170,915
5,280,9125,244,6685,168,8225,320,5145,308,9775,252,9315,365,022

APS, aged population sample..


References

  1. 보건의료 빅데이터 플랫폼. 보건의료 빅데이터 플랫폼 사업[Internet]. 청주: 한국보건산업진흥원; c2021 [cited 2021 Oct 10]. Available from: https://hcdl.mohw.go.kr/BD/Portal/Enterprise/DefaultPage.bzr?tabID=1093&ftab=1003.
  2. 보건복지부. 보건의료분야 결합전문기관 소개[Internet].세종: 보건복지부; c2020 [cited 2021 Oct 10]. Available from: https://datalink.mohw.go.kr/intro.html.
  3. Kim L, Sakong J, Kim Y, Kim S, Kim S, Tchoe B, et al. Developing the inpatient sample for the National Health Insurance claims data. Health Policy Manag. 2013;23(2):152-61. DOI: https://doi.org/10.4332/KJHPA.2013.23.2.152.
    CrossRef
  4. Hwang SG, Park H. An analysis on prescribing patterns of Alzheimer’s dementia treatment and choline alfoscerate using HIRA claims data. Korean J Clin Pharm. 2019;29(1):1-8. DOI: https://doi.org/10.24304/kjcp.2019.29.1.1.
    CrossRef
  5. Jeon SM, Park S, Rhie SJ, Kwon JW. Prescribing patterns of polypharmacy in Korean pediatric patients. PLoS One. 2019;14(10):e0222781. DOI: https://doi.org/10.1371/journal.pone.0222781.
    Pubmed KoreaMed CrossRef
  6. Cha YJ. The economic burden of stroke based on South Korea’s national health insurance claims database. Int J Health Policy Manag. 2018;7(10):904-9. DOI: https://doi.org/10.15171/ijhpm.2018.42.
    Pubmed KoreaMed CrossRef
  7. Rhee CK, Kim K, Yoon HK, Kim JA, Kim SH, Lee SH, et al. Natural course of early COPD. Int J Chron Obstruct Pulmon Dis. 2017;12:663-8. DOI: https://doi.org/10.2147/COPD.S122989.
    Pubmed KoreaMed CrossRef
  8. Yuk JS, Baek JC, Park JE, Jo HC, Park JK, Cho IA. Incidence of gestational trophoblastic disease in South Korea: a longitudinal, population-based study. PeerJ. 2019;7:e6490. DOI: https://doi.org/10.7717/peerj.6490.
    Pubmed KoreaMed CrossRef
  9. Lee JY, Lim NG, Chung CK, Lee JY, Kim HJ, Park SB. Parkinson’s disease as risk factor in osteoporosis and osteoporotic vertebral fracture : prevalence study using National Inpatient Sample Database in Korea. J Korean Neurosurg Soc. 2019;62(1):71-82. DOI: https://doi.org/10.3340/jkns.2018.0012.
    Pubmed KoreaMed CrossRef
  10. 건강보험심사평가원. 2012년 진료비통계지표. 원주: 건강보험심사평가원; 2013.
  11. 건강보험심사평가원. 2020년 진료비통계지표. 원주: 건강보험심사평가원; 2021.
  12. 통계청. 인구동향조사. 대전: 통계청; 2021.
  13. 통계청. 장래인구조사. 대전: 통계청; 2021.
  14. 이수연, 문용필. 국민건강보험의 노인의료비 지출추계 및 장기재정 전망. 비판사회정책. 2018;58:53-93. DOI: https://doi.org/10.47042/ACSW.2018.02.58.53.
    CrossRef
  15. Lee J, Lee JS, Park SH, Shin SA, Kim K. Cohort profile: the National Health Insurance Service-National Sample Cohort (NHIS-NSC), South Korea. Int J Epidemiol. 2017;46(2):e15. DOI: https://doi.org/10.1093/ije/dyv319.
    Pubmed CrossRef
  16. Lin LY, Warren-Gash C, Smeeth L, Chen PC. Data resource profile: the National Health Insurance Research Database (NHIRD). Epidemiol Health. 2018;40:e2018062. DOI: https://doi.org/10.4178/epih.e2018062.
    Pubmed KoreaMed CrossRef
  17. Healthcare Cost and Utilization Project. HCUP sample design: national databases-accessible version [Internet]. Rockville (MD): Agency for Healthcare Research and Quality; 2018 [cited 2021 Nov 1]. Available from: https://www.hcup-us.ahrq.gov/tech_assist/sampledesign/508_compliance/index508_2018.jsp#nissample.

Stats or Metrics

Share this article on

  • line
  • mail

Most KeyWord ?

What is Most Keyword?

  • It is most registrated keyword in articles at this journal during for 2 years.