타우동등신뢰도(tau-equivalent reliability, )[1]는 크론바흐 알파(Cronbach's alpha) 등의 이름으로 불리는 단일 실행 신뢰도(즉, 고정된 시간에서 여러 항목에 대한 응답자의 신뢰도[2]) 계수이다. 는 단일 실행 신뢰도 계수들 중에서 가장 유명하고 흔히 사용되지만[1], 최근 연구들은 이 계수를 무조건적으로 사용하지 않는 것을 권장한다[3][4][5][6][7][8]. 의 대안으로 흔히 언급되는 것은 구조방정식 기반 신뢰도 계수(예: 동류신뢰도)이다[1][5][6][7].
개의 항목으로 구성된 검사에서 번째 항목의 (관찰) 점수를 , 그 분산을 라고 하자. 각 항목 점수의 합을 , 그 분산을 라고 하자. 와 간의 공분산을 라고 하자. 는 항목 분산의 합과 항목간 공분산의 합으로 구성된다. 즉, . 항목간 공분산의 평균을 이라고 하자. 즉, 이다. 의 공식은 여러 가지로 표현할 수 있다.
우선, 이해하기 쉬운 "체계적 공식"[1]은 다음과 같다. 전통적으로 사용되어 온 관행적 공식은 다음과 같다.
평행한 (parallel) 자료는 모집단 수준에서 모든 항목간 공분산(공분산 행렬의 비대각 요소)이 같고, 모든 분산(공분산 행렬의 대각 요소)이 같다. 예를 들어, 다음의 자료는 평행 조건을 충족한다. 평행한 자료에서, 공분산 행렬 대신 상관관계 행렬을 사용하더라도 정보의 손실이 없다. 모든 평행한 자료는 타우동등하지만, 그 역은 성립하지 않는다. 즉, 세 조건 중 평행 조건이 가장 충족되기 어렵다.
타우동등한 (tau-equivalent) 자료는 모집단 수준에서 모든 공분산이 같아야 한다. 분산은 다를 수 있다. 예를 들어, 다음의 자료는 타우동등 조건을 충족한다. 타우동등한 자료에서 모든 항목은 동일한 변별력 혹은 중요성을 갖는다. 예를 들어, 아래의 자료에서 모든 항목은 동일한 변별력을 갖는다. 모든 타우동등한 자료는 동류이지만, 그 역은 성립하지 않는다.
동류 (congeneric) 자료는 모집단 수준에서 모든 공분산과 분산이 다를 수 있다. 단, 단일차원이어야 한다. 예를 들어, 다음의 자료는 동류 조건을 충족한다. 동류 자료에서 모든 항목은 서로 다른 변별력 혹은 중요성을 가질 수 있다. 예를 들어, 아래의 자료에서 2번째 항목은 1번째 항목보다 4배 더 큰 변별력을 갖는다.
수많은 신뢰도계수들이 존재한다. 그 중에서도 서로 관련이 깊고 자주 사용되는 신뢰도 계수들의 관행적 명칭을 정리하면 다음과 같다[1]. 행의 이름과 열의 이름을 조합하면 해당 신뢰도 계수의 전제조건을 알 수 있다. 예를 들어, 크론바흐 알파와 거트먼의 은 단일차원 및 타우동등의 조건에서 유도되는 신뢰도 계수이다.
관행적 명칭은 무질서하고 비체계적이다. 마치 사용자들에게 최대한의 혼동과 오해를 유발하기 위한 목적으로 설계된 것처럼 보인다. 관행적 명칭은 각 계수의 성격에 대해 아무런 정보도 주지 않거나, 혹은 부정확한 정보(예: 표준화된 알파)를 준다. 관행적 명칭은 비일관적이다. 어떤 것은 공식이고, 어떤 것은 계수이다. 어떤 것은 최초 개발자의 이름이 붙고, 어떤 것은 최초 개발자도 아닌 사람의 이름이 붙고, 다른 것은 어떤 사람의 이름도 붙지 않는다. 같은 공식이 서로 다른 이름으로 지칭되는가 하면, 서로 다른 공식이 같은 이름(예: 여러 알파 및 오메가)으로 지칭된다. 이들 신뢰도 계수에 대해 제안된 체계적 명칭과 그 표기는 다음과 같다[1].
신뢰도 계수의 체계적 명칭
반분
단일차원
다차원
평행
반분 평행 신뢰도()
평행 신뢰도()
다차원 평행 신뢰도 ()
타우동등
반분 타우동등 신뢰도()
타우동등 신뢰도()
다차원 타우동등 신뢰도()
동류
반분 동류 신뢰도()
동류 신뢰도()
Bifactor model Bifactor reliability() Second-order factor model Second-order factor reliability() Correlated factor model Correlated factor reliability()
타우동등 신뢰도()는 흔히 크론바흐 알파 혹은 알파 계수로, 평행신뢰도()는 흔히 표준화된 알파라는 이름으로 지칭된다. 알파라는 이름을 공유하고 있어 와 가 같은 신뢰도 계수라고 오해하는 경우가 흔하다. 를 표준화된 알파로 지칭하는 것은 역사적 근거가 없다. 크론바흐[9]는 이 계수를 알파라고 지칭하지 않았고, 이 계수의 사용을 권장하지도 않았다. 는 1970년대 이전에는 거의 사용되지 않았다. SPSS가 를 표준화된 알파라는 이름으로 제공하기 시작하면서 이 계수가 가끔씩 사용되기 시작하였다[10]. 는 보다 더 엄격한 조건인 평행 조건을 요구하며, 이 계수의 사용은 권장되지 않는다.
모든 가능한 반분에 대해 반분 타우동등 신뢰도()를 계산한다고 가정하자. 그 평균값()은 타우동등 신뢰도()와 같다. 크론바흐[9]가 증명한 이 관계는 의 직관적 의미를 설명하기 위해 흔히 사용된다. 그러나 이러한 해석은 의 과소추정 성향, 즉 타우동등하지 않은 자료에 가 적용될 경우 신뢰도보다 작다는 수학적 사실을 간과한 것이다. 의 과소추정을 감안하면 평균값이 아니라 최댓값()이 신뢰도에 더 가깝다[6]. 의 잠재적 유용성은 크론바흐의 증명 이전에 거트먼[11]에 의해 이미 언급된 적이 있다. 한 비교연구[12]에 의하면 는 조사에 포함된 신뢰도 계수중에서 가장 정확하다. 르벨[13]은 의 최솟값()을 베타 계수로 지칭하며, 베타가 다른 신뢰도 계수는 보여주지 못하는 보완적 정보를 제시한다고 추천한다[5].
쿠더-리처드슨[15] 이전에는 반분 평행 신뢰도()[16][17]만이 알려져 있었다. 따라서 모든 항목들을 임의의 반분(예: 짝-홀, 앞-뒤)으로 나눈 후, 를 적용하여 신뢰도 추정치를 얻었다. 이 방법의 문제는 어떤 반분이 선택되느냐에 따라 신뢰도 추정치가 달라진다는 것이었다. 이에 대한 비판이 제기되었지만, 20여 년 동안 근본적인 해결책을 찾지 못하였다[18].
쿠더-리처드슨 (1937)[15]은 기존의 의 문제점을 극복할 수 있는 여러 개의 신뢰도 계수를 제안하였다. 그들은 신뢰도 계수에 별도의 이름을 붙이지 않았다. 그들이 발표한 여러 공식들 중 식 20이 이다. 이 공식은 흔히 쿠더-리처드슨 식 20, 혹은 KR-20으로 지칭된다. 쿠더-리처드슨 (1937)은 관찰 점수가 이분적(예: 정답/오답)인 경우에 대해 다루었으므로, KR-20은 의 관행적 공식과 약간 다르게 표현되었다. 를 항목 의 정답 비율, 를 항목 의 오답 비율이라고 하자 (). KR-20의 공식은 다음과 같다.
쿠더-리처드슨 (1937)은 을 유도하기 위해 불필요한 제약조건을 제시하였다. 을 쿠더-리처드슨 (1937)과 다른 방식으로도 유도할 수 있다는 것을 보여주는 연구가 다수 발표되었다. 호잇 (1941)[19]은 ANOVA(Analysis of variance)를 이용하여 를 유도하였다. 호잇을 KR-20의 일반식에 대한 최초의 연구로 볼 수도 있지만, 그는 의 공식을 제시하지 않았다. 의 현대적 공식을 최초로 표현한 것은 잭슨과 퍼거슨 (1941)[20]이다. 그들이 제시한 버전은 아래와 같다. 에저턴과 톰슨 (1942)[21]도 같은 버전을 이용하였다.
거트먼 (1945)[11]은 여섯 개의 신뢰도 공식을 유도하였으며, 각각을 으로 표기하였다. 그는 이 공식들이 모두 신뢰도보다 항상 작거나 같다는 것을 증명하였으며, 이러한 특성을 바탕으로 이 공식들을 '신뢰도의 하한선'이라고 지칭하였다. 거트먼의 가 이며, 가 이다. 그는 가 보다 항상 크거나 같다 (즉, 더 정확하다)는 것을 증명하였다. 그 당시에는 모든 계산을 손으로 하던 시기였으며 의 공식이 더 계산하기 간단하였으므로 그는 특정한 조건 하에서 가 유용하다고 언급하였다.
굴릭센 (1950)[22]은 기존 연구들보다 더 적은 가정만으로 을 유도하였다. 그가 사용한 가정은 현대적 용어로 본질적 타우동등 조건과 같다.
두 공식은 정확히 같은 것으로 인식되었으며, KR-20의 일반식이라는 표현도 사용되지 않았다. 호잇[19]은 자신의 방법이 KR-20과 “정확히 같은 결과를 낸다"(p.156)고 설명하였고,잭슨과 퍼거슨[20]도 두 공식이 "똑같다(identical)" (p.74)고 언급하였으며, 거트먼[11]은 가 KR-20와 ”대수적으로 똑같다" (p.275)고 하였고, 굴릭센[22]도 두 공식이“똑같다" (p.224)고 인정하였다. KR-20에 비판적인 연구들조차 KR-20의 원래 식이 이분적 자료에만 적용될 수 있다는 것을 단점으로 지적하지 않았다[23].
가 신뢰도를 과소추정한다는 것은 이 공식의 개발자[15]들도 언급하였다. 후속 연구는[24]은 의 이 특성 만으로도 (신뢰도를 과소추정할지 과다추정할지 알 수 없는) 반분 신뢰도 기법보다 추천할 만하다고 주장하였다. 크론바흐 (1943)[23]는의 과소추정 성향에 대해 비판적이었다. 그는 의 과소추정이 얼마나 되는지 정확히 알려지지 않았으며, 음수의 값도 도출될 수 있음을 비판하였다. 이러한 문제 때문에 그는 가 반분 신뢰도 기법을 대체할 수 있는 대안으로 권장될 수 없다고 주장하였다.
기존 연구들[19][11][20][22]과 마찬가지로, 크론바흐 (1951)[9]는 를 유도할 수 있는 또 하나의 방법을 제안하였다. 그의 해석은 기존 연구들의 것보다 직관적으로 이해하기 쉬웠다. 즉, 그는 가 모든 가능한 반분에서 얻어진 의 평균과 같다는 것을 증명하였다. 또한 그는 KR-20이라는 이름이 이상하다고 언급하면서 coefficient alpha라는 새로운 이름을 제안하였다. 그의 접근은 엄청난 대중적 성공을 거두었다. 그러나 그는 몇 가지 핵심적 사실을 누락하였을 뿐 아니라, 부정확한 설명을 제시하였다.
첫째, 그는 coefficient alpha가 KR-20의 일반식이라는 해석을 제시하였지만, 기존의 다른 연구들도 정확히 같은 공식을 발표하였다는 설명을 생략하였다. 따라서 배경지식 없이 크론바흐 (1951)만을 읽은 사람들은 그가 KR-20의 일반식을 처음 개발한 것으로 오해할 소지가 있었다.
둘째, 그는 가 언제 신뢰도와 같은지에 대해서 설명하지 않았다. 따라서 비전문가들은 가 전제조건에 관계없이 모든 자료에 사용할 수 있는 신뢰도 계수라는 인상을 받을 수 있었다.
셋째, 그는 자신이 에 대한 태도를 왜 바꿨는지 설명하지 않았다. 특히, 자신[23]이 강력히 비판하던 의 과소추정 문제에 대한 명확한 답변을 제시하지 않았다.
노빅과 루이스 (1967)[25]은 이 신뢰도와 같기 위한 필요충분 조건을 증명하였으며, 이 조건을 본질적 타우동등이라고 명명하였다.
크론바흐 (1978)[2]는 크론바흐 (1951)가 많은 인용을 받게 된 이유를 "흔한 공식에 브렌드 네임을 붙였기 때문" (p.263)이라고 언급하였다[1]. 그는 다른 유형의 신뢰도 계수(예: 평가자간 신뢰도, 검사-재검사 신뢰도)에 베타, 감마, 델타,...등의 이름을 연속적으로 붙일 계획이었지만, 나중에 생각을 바꾸었다고 설명하였다.
크론바흐와 샤벨슨 (2004)[26]은 독자들에게 보다는 일반화 가능성이론의 사용을 권장하였다. 그는 Cronbach's alpha라는 이름의 사용에 반대하였다. 그는 KR-20의 일반식을 크론바흐 (1951)보다 먼저 발표한 기존 연구들의 존재를 명시적으로 부인하였다.
정의에 의해, 신뢰도는 0보다 작을 수 없고, 1보다 클 수 없다. 많은 교과서들은 을 신뢰도와 동일시하며, 그 범위에 대한 부정확한 설명을 한다. 는 타우동등하지 않은 자료에 적용될 경우 신뢰도보다 작다. 2번 항목은 1번 항목의 값을 그대로 복사하고, 3번 항목은 1번 항목의 값에 –1을 곱하여 복사했다고 하자. 항목간 공분산 행렬은 아래와 같으며, 이다.
Observed covariance matrix
음의 는 음의 변별력, 혹은 역항목 처리의 실수 등의 이유로 발생할 수 있다.
와 달리, 구조방정식 기반 신뢰도 계수들은 항상 0보다 같거나 크다.
이 이상현상은 를 비판하기 위해 Cronbach (1943)[23]가 처음 지적했지만, Cronbach (1951)[9]은 와 관련된 온갖 주제를 다루어서 Cronbach and Shavelson (2004)[26]가 "백과사전적"(p.296)이라 묘사한 그의 논문에서 이에 대해 한 마디도 언급하지 않았다.
많은 교과서들은 가 항목간 동질성을 보여주는 지표라고 언급한다. 이것은 높은 값이 항목간 동질성을 보여준다는 크론바흐(1951)[9]의 부정확한 설명에서 유래한다. 동질성은 요즘의 문헌에서는 잘 사용되지 않는 용어로서, 관련 연구들은 동질성이 항목 간 단일차원성을 지칭한 것으로 해석한다. 여러 연구들이 높은 값이 단일차원성을 나타내지 않는다는 증명 혹은 반례를 제시했다[27][6][28][29][30][31].아래의 반례를 보자.
Unidimensional data
위의 단일차원 자료에서 이다.
Multidimensional data
위의 다차원 자료에서도 이다.
Multidimensional data with extremely high reliability
위의 자료에서는 로 높지만, 다차원이다.
Unidimensional data with unacceptably low reliability
위의 자료에서는 로 매우 낮지만, 단일차원이다.
단일차원성은 의 전제조건이다. 즉, 단일차원을 확인하기 위해 를 구하는 것이 아니라, 를 구하기 전에 단일차원을 확인해야 한다[1].
내적 일관성이라는 용어는 신뢰도 문헌에서 흔히 사용되지만, 그 의미는 명확하게 정의되어 있지 않다. 이 용어는 때로는 특정한 종류의 신뢰도를 지칭하기 위해 사용되기도 하지만 (예: 내적 일관성 신뢰도), 외에 정확히 어떤 신뢰도 계수가 여기에 포함되는지는 불명확하다. 크론바흐 (1951)[9]는 내적 일관성이라는 용어를 명시적 정의를 내리지 않고 여러 맥락에서 사용하였다. 조와 김 (2015)[6]은 가 이 중 어떤 것의 지표도 아니라는 것을 보였다.
"alpha if item deleted"를 이용하여 항목을 제거하면 신뢰도는 항상 증가한다
"alpha if item deleted"를 이용하여 항목을 제거하면 표본 수준의 신뢰도 값이 모집단 수준의 신뢰도 값보다 더 높게 보고되는 '알파 인플레이션'[32]이 발생할 수 있으며, 실제 신뢰도 값은 오히려 낮아질 수도 있다[33]. 신뢰도를 낮추는 항목의 제거는 통계적 근거 뿐만 아니라, 이론적 논리적 근거에 기반을 두어야 한다. 또한 표본을 둘로 나누어 교차검증하는 것이 권장된다[32]
신뢰도 계수가 얼마 이상이어야 하는지에 대해 가장 자주 인용되는 원천은 너낼리의 책[34][35][36]이다[37]. 그러나 그의 권고 수준은 그의 의도와는 다르게 인용되고 있다. 그의 의도는 연구의 목적이나 단계에 따라 다른 신뢰도 기준을 적용하자는 것이었다. 그러나 초기 연구, 기초 연구, 응용 연구, 척도개발 연구 등 연구의 성격에 관계없이 .7의 신뢰도 기준이 사용되고 있다[37]. 0.7이라는 수치는 너낼리가 연구의 초기 단계에 대해서 언급한 수치로서, 학술지에 게재된 대부분의 연구는 여기에 해당하지 않는다. .7보다는 너낼리가 응용연구에 대해 언급한 .8이라는 기준이 대부분의 실증연구에 더 적합하다.
또한 권고 수준에 대한 그의 의도는 컷오프 포인트가 아니었다. 어떤 기준이 만약 컷오프 포인트를 의미한다면, 그것을 충족했는지의 여부가 중요할 뿐, 얼마나 넘었는지 혹은 모자라는지는 중요하지 않다. 너낼리는 어떤 기준 (가령, .8)을 말할 때 엄밀하게 .8이 되어야 한다는 뜻이 아니라, .8 근처의 어떤 범위를 의미하는 뉴앙스로 제시하였다[38].
또한 그의 아이디어는 신뢰도를 높이는 데에도 비용이 발생하므로, 모든 상황에서 최대한의 신뢰도를 얻으려고 할 필요는 없다는 것이다.
Nunnally's recommendations on the level of reliability
완벽한 신뢰도를 갖는 측정은 타당성이 결여된다. 예를 들어, 신뢰도가 1인 시험에 응하는 수험자는 만점 혹은 0점만을 얻게 된다. 왜냐하면, 한 항목에 정답 혹은 오답을 낸 수험자는 다른 모든 항목에도 똑같이 정답 혹은 오답을 낼 것이기 때문이다. 이렇게 신뢰도를 증가시키기 위해 타당성이 희생되는 현상을 attenuation paradox[39][40]라고 한다.
높은 신뢰도 값은 내용 타당성과 상충관계를 갖는다. 높은 내용타당성을 위해 각각의 항목은 측정하고자 하는 내용을 포괄적으로 대표할 수 있는 것으로 구성되어야 한다. 그런데 신뢰도를 높이기 위해 본질적으로 같은 질문을 서로 다른 방식으로 반복해서 측정하는 전략이 흔히 사용되고 있다[41][42].
SPSS와 SAS 등의 범용 통계 소프트웨어는 를 계산해주는 기능을 포함하고 있다. 사용자들은 의 공식을 모르더라도 마우스 클릭 몇 번만으로 그 값을 얻을 수 있다.
AMOS, LISREL, MPLUS 등의 구조방정식 전용 소프트웨어는 구조방정식 기반 신뢰도 계수를 계산해주는 기능을 갖고 있지 않다. 사용자들이 직접 계산하는 것은 불편하고, 오류의 가능성도 높다. 아마도 이런 사용자 편의성의 부재로 인해 구조방정식 사용을 보고하는 연구들조차 구조방정식 기반 신뢰도 계수 대신 를 사용한다.[1] 구조방정식 기반 신뢰도 계수를 자동적으로 계산하기 위한 다음의 대안이 있다.
1) R(무료): psych package[50]는 여러 가지 신뢰도 계수를 계산할 수 있다.
2) EQS(유료)[51]: 구조방정식 전용 소프트웨어이며, 신뢰도 계수를 계산해 주는 기능을 갖고 있다.
3) RelCalc(무료)[1]: Microsoft Excel이 있으면 사용가능하다. 구조방정식 전용 소프트웨어가 없어도 를 구할 수 있다. 또한 구조방정식 전용 소프트웨어의 결과를 바탕으로 여러 가지 다차원 구조방정식 신뢰도 계수를 계산할 수 있다.