아동학회지에 게재된 측정도구 개발 및 타당화 연구 고찰: 1984–2016년
A Review of Published Instruments for Children and their Families in the Korean Journal of Child Studies
Article information
Trans Abstract
Objective
This study aimed to review scales and tests developed for or validated with children and their families that were published in the Korean Journal of Child Studies from 1984 to 2016. Specifically, the purpose of the present study was to analyze the contents and format of the selected instruments, as well as to evaluate their psychometric properties.
Methods
Using several databases and journal archives from the Korean Journal of Child Studies, searches were implemented using the key terms: instrument, scale, development, and validation. Instruments from 76 selected studies were reviewed based on several characteristics, such as assessment areas, contents, respondents, responding types, and psychometric properties.
Results and Conclusion
First, a majority of the reviewed instruments were developed for infants and children, whereas only one was developed for adolescents. With regard to their specific measurement domains, many instruments focused on social emotional development among children. Second, with a few exceptions, the selected studies provided appropriate evidence for the reliability of the instrument, including its internal consistency, inter-rater reliability, and spilt-half reliability. Many studies also reported on the criterion-related or construct validity of the instrument to establish its validity. Future studies need to develop instruments across diverse developmental areas that collect information from multiple sources and raters. In addition, more evidence on the reliability and validity of the reviewed instruments should be provided to demonstrate their psychometric qualities.
서론
지난 30여 년 동안 아동학 분야에서 양적 연구방법을 적용해 온 경험적 연구들은 여러 측면에서 발전해왔다. 다양한 패널 데이터를 통한 자료의 축적을 비롯하여 HLM이나 MPLUS와 같은 상대적으로 새로운 통계 프로그램의 활용과 같은 기술적 진전 덕분에 종단자료 분석을 위한 잠재성장 모형분석, 분석 단위(unit of analysis)를 고려한 다층모형분석 등과 같은 고급 통계분석기법을 아동학 연구에 적용할 수 있게 되었다.
그러나 이러한 자료 분석방법의 급진적 진전에 비해 양질의 자료 수집과 밀접한 관련이 있는 측정도구의 양호도나 측정내용의 적절성에 대한 관심은 상대적으로 부족하였으며, 그 결과로 심리측정 영역에서 강조되어온 주요 이슈들에 대한 충분한 검토 없이 측정도구가 부적절하게 연구에 사용되는 경우가 있어 왔다. 검사문항이나 검사도구의 하위구조에 대한 이론적 . 논리적 적합성의 부족, 불충분한 내용 타당도 검토, 내적 일관성 확인이나 검사–재검사 신뢰도 등을 통한 신뢰도에 대한 증거 누락, 구성 타당도나 준거관련 타당도 등의 타당도 검토 자료 부족 등의 문제가 그 예라고 할 수 있다. 이러한 점은 비단 국내뿐 아니라 국외의 측정도구 고찰에 관한 연구(Ahern, Kiehl, Lou Sole, & Byers, 2006; Chan, Shum, Toulopoulou, & Chen, 2008; Mathisen & Einarsen, 2004; Vignes, Coley, Grandjean, Godeau, & Arnaud, 2008)에서도 공통적으로 논의되고 있는 내용이다.
특히, 국내 연구에서 우리나라의 사회문화적 특성을 고려하지 않고 국외에서 개발된 도구들을 단순히 번안하여 신뢰도와 타당도에 대한 증거 없이 사용한 경우도 드물지 않아(J. Kim & Kim, 2007) 측정도구의 양호도 검증에 대한 추가 자료나 문화적 특수성에 대한 진지한 고찰이 요구되고 있는 실정이다. 특히 아동학에서 다루는 심리적 특성들은 인간의 행동을 설명하기 위해 이론으로부터 도출된 가설적이고 추상적인 개념이기 때문에 연구자가 이 구성개념을 어떻게 조작적으로 정의하느냐 하는 것이 무엇보다 중요하다. 이러한 구성 개념을 기초로, 어떻게 신뢰롭고 타당하게 측정할 것인지에 대한 논의가 이루어진다고 볼 수 있기 때문이다. 이러한 근거를 바탕으로 개발되지 않은 측정도구는 연구결과의 적용이나 해석에 있어서도 이론적인 근거를 명확히 하지 못하는 한계를 드러낸다(Cha et al., 2010). 더욱이 비교문화 연구나 타당화 연구들(Lim & Bae, 2015; Putnam, Garstein, & Rothbart, 2006; Sukigara, Nakagawa, & Mizuno, 2015)에 따르면, 문항 내용이 받아들여지는 의미 및 특정 구인의 하위영역들이 문화에 따라 달라질 수도 있기 때문에 국외 측정도구의 타당화 작업에 있어 문항의 번역뿐만 아니라 측정도구의 하위 구조 파악에 있어서도 문화적 특수성을 고려해야 한다.
이와 더불어 신뢰도와 타당도는 측정도구의 심리측정적 특성을 반영하는 지표로서, 신뢰도는 측정도구의 정확성에 대한 평정의 기준(Kerlinger, 1973)으로, 타당도는 검사나 측정도구가 측정하고자 하는 개념을 제대로 측정하고 있는지에 대한 기준으로 활용된다. 신뢰롭고 타당한 검사도구는 연구물 생성에 있어서만 중요한 것이 아니라 영유아나 아동을 대상으로 하는 실천현장에서의 평가나 개입을 위해서도 매우 중요하다(National Association for the Education of Young Children & National Association of Early Childhood Specialists in State Department Education, 2003). 일례로, Chan 등(2008)의 실행기능 척도에 대한 고찰 연구에 따르면 실행기능은 상당히 포괄적인 개념으로 연구자가 그것을 어떻게 정의하느냐에 따라 어떻게 측정할 것인가가 달라지고, 그리고 측정을 통해 이러한 실행기능이 부족하거나 손상되었다고 판단되는 아동에게 어떻게 개입할 것인가가 달라지기 때문에 보다 정확하고, 민감하며, 세부적 측정이 가능한 실행기능 척도를 개발하는 것이 중요함을 역설하였다.
최근에는 측정도구의 개발과정이나 타당화 과정에 있어 좀 더 엄격한 기준을 적용한 연구들이 수행되었다. 즉, 충분한 이론적 고찰을 통한 개념 구성, 국외 척도의 경우 번역 및 역번역(back translation) 과정, 타당도 분석 과정 등에서 문화적 특수성을 고려하여 측정도구를 개발하고자 노력한 연구들이 나오고 있다. 특히, 양적 연구에서 심리측정적 특성이 우수한 검사 도구는 체계적 혹은 비체계적 오류를 감소시켜 측정의 질을 담보함으로써(Levin, 1999) 보다 객관적인 연구결과를 도출해 낼 수 있다는 점을 고려해 볼 때, 아동학 연구에서 이루어지고 있는 측정도구들의 내용과 심리측정적 특성을 고찰해볼 필요가 있다.
따라서 본 연구에서는 지난 30여 년간 아동학회지에 게재된 검사도구 개발 연구 혹은 국외 검사도구의 타당화 연구을 중심으로 측정도구 개발 및 타당화 연구의 전반적인 동향과 해당 측정도구들의 심리측정적 특성을 고찰해보고자 한다. 본 연구에서 고찰하고자 하는 대상은 아동학회지에 처음으로 측정도구 개발 논문이 나온 1984년부터 2016년까지아동학회지에 게재되었던 논문들 중에서 측정도구를 개발하였거나 국외 측정도구에 대한 타당화 작업을 한 측정도구 관련 연구 76편에 국한한다. 일반적으로 측정도구란 사전적으로 인간의 심리적 또는 사회적 능력이나 특징을 측정하기 위하여 동원되는 모든 형태의 수단과 방법이라고 정의된다(Educational Research Institute of Seoul National University, 1995). 이에 본 연구에서 검토된 측정도구 관련 연구는 아동의 발달적 특성을 평가하는 측정도구를 비롯하여 아동의 주요 환경인 가족이나 교육·보육기관에 관련된 특징을 부모나 교사의 태도나 평가 등을 통해 측정하기 위한 목적으로 수행된 연구를 의미한다.
본 연구의 목적을 좀 더 구체적으로 살펴보자면, 아동학회지에 게재된 연구에서 개발 혹은 타당화된 것으로 언급된 측정도구들에 대한 전반적인 동향을 파악함으로써 국내 아동학 연구자들이 주로 관심을 기울여 개발해왔던 혹은 타당화 작업을 하였던 검사도구의 연구 분야, 연구대상 연령, 그리고 형식(평가자, 평가방식, 반응양식) 등에 대한 정보를 제공하고자 한다. 이를 통해 우리가 현재까지 어느 분야의 발달 영역을 평가하기 위해, 어느 연령의 집단을 대상으로, 그리고 어떠한 평정 방법이나 반응 양식을 주로 활용하였는지에 대한 전반적인 정보를 알 수 있을 것이다. 이는 상대적으로 많이 개발이 되어 온 연구 분야나 연구대상 등에 대한 정보를 제공할 뿐만 아니라 향후 측정도구 개발 연구나 타당화 연구를 하려는 연구자들에게 측정도구 개발 및 타당화와 관련하여 연구가 진행되어야 할 영역이나 연구대상에 대한 정보를 제공할 것이다.
또한 본 연구는 기존에 개발되었거나 타당화된 측정도구들의 심리측정적 특성을 평가하고 이에 대한 정보도 함께 제공하고자 한다. 이를 위해 신뢰도와 타당도를 포함하는 측정의 양호도를 중심으로 연구들을 평가하고 관련 정보들을 제공하고자 한다. 또한 검사도구 개발 및 타당화 작업에 있어 과거 관련 연구에서 고려되었던 심리측정적 특성의 기준 뿐만 아니라 최근 연구에서 적용하고 있는 심리측정적 특성 기준에 대한 정보를 제공하여 향후 측정도구 개발 혹은 타당화 연구 수행 시 고려해야 할 심리측정적 특성의 기준에 대한 정보도 제시하고자 한다. 본 고찰을 통해 양질의 측정도구의 중요성과 체계적인 타당화 과정 등에 대한 아동학 연구자들의 관심을 고취시킬 수 있을 것으로 기대한다. 본 연구의 목적에 따라 다음과 같은 연구문제를 설정하였다.
연구문제1
아동학회지에 게재된 측정도구 개발 및 타당화 연구에 사용된 척도의 측정대상 및 영역, 그리고 형식(평가자, 평가방식, 반응양식)은 어떠한가?
연구문제2
아동학회지에 게재된 측정도구 개발 및 타당화 연구에 사용된 척도의 양호도는 어떠한가?
연구방법
분석대상 연구 검색방법 및 기준
본 연구의 분석 대상은 ‘아동학회지(Korean Journal of Child Studies [KJCS])’ 첫 호가 개간된 1980년(1권 1호)부터 2016년(37권 6호)까지 27년간 게재된 연구 중 논문 전문의 온라인 검색이 가능한 측정도구 관련 연구 76편이었다. 측정도구 관련 연구란 아동의 발달적 특성을 평가하기 위한 측정도구를 비롯하여 아동의 주요 환경인 가족이나 교육 · 보육기관에 관련된 측정도구를 개발하거나 타당화하기 위한 목적으로 수행된 연구를 의미한다.
분석 대상 연구를 선정하기 위한 첫 단계로 먼저 데이터베이스 KISS와 RISS를 사용하여 측정에 관련된 검색 용어와 측정도구 적용 대상에 대한 검색 용어를 ‘AND’ 혹은 ‘OR’로 연결하여 연구를 검색하였다. 이 때 사용된 측정관련 용어는 ‘측정’, ‘척도’, ‘평가’, ‘타당화’ 등이었고, 대상관련 용어는 ‘영아’, ‘유아’, ‘아동’, ‘청소년’, ‘학생’, ‘가족’, ‘부모’, ‘교사’ 등이었다. 다음으로 1차 검색된 연구의 초록을 검토하여 특정 측정도구와 준거변인의 관계를 단순 분석하는 등 척도의 개발이나 타당화가 주요 목적이 아닌 연구를 제외하였다. 또한 동일한 척도 개발을 위한 예비연구가 개발 및 타당화 연구와 동일한 연구자에 의해 중복 게재된 유사 연구의 경우, 이를 하나의 연구로 간주하였다. 선정여부를 결정하는 데 있어서 주관적 판단이 요구되는 경우에는 세 명의 연구자가 모두 연구목적에 부합한다고 판단한 경우에만 연구대상에 포함시켰다. 이상의 선정기준에 근거하여 최종 분석에 포함된 연구의 목록과 상세 내용은 Appendix에 제시되어 있다.
분석방법
선정된 연구는 측정 대상 및 영역, 응답자, 측정도구의 형식, 측정단위와 반응양식, 그리고 척도의 양호도로 구분하여 분석하였다. 먼저 측정 대상은 Table 1에 제시된 바와 같이 아동, 가족구성원 및 가정환경, 교육/보육기관 구성원 및 기관 환경, 기타 대상의 네 가지 범주로 구분하였으며, 측정 영역은 측정 대상에 따라 별도의 구분 기준을 작성하였다. 예를 들어, 영유아/아동/청소년의 특성을 평가하기 위한 도구를 개발한 연구의 경우 척도의 하위 요인을 검토하여 발달적 특성을 측정하기 위한 척도와 기타 영역을 측정하는 척도로 구분하였다. 그리고 발달적 특성을 측정하는 척도의 경우 영역의 구분이 가능한 한도 내에서 인지 · 언어, 사회 · 정서, 신체, 기본생활습관, 전반적 발달, 기타 발달특성으로 범주화하였다. 다음으로 응답자는 연령에 관계없이 아동 자신, 부모, 교육기관 전문가, 훈련받은 관찰자나 검사자로 분류하였다. 이상의 분류 중 어떤 범주에도 포함되지 않는 경우에는 기타 응답자로 분류하였다. 측정도구의 평가방식과 관련해서는 검사법, 질문지법, 관찰법 등으로 분류하였다. 또한 척도의 반응양식을 예/아니오의 체크리스트, Likert식, 반응 수, 빈도 수, 기타 범주로 구분하였다.
측정의 양호도는 신뢰도와 타당도 자료를 기초로 분석하였다. 신뢰도는 내적합치도, 반분신뢰도, 재검사 신뢰도, 동형 검사신뢰도, 채점자간 신뢰도로 구분하여 살펴보았다. 신뢰도의 경우, 무엇에 관심을 두느냐에 따라 크게 측정도구의 안정성을 추정하는 검사재검사 신뢰도, 측정도구의 모든 문항이 같은 특성을 측정하는지를 추정하는 반분신뢰도와 내적합치도, 두 측정도구 간의 유사성을 추정하는 동형검사신뢰도로 구분하였다(Chung, 2012). 이외에도 둘 이상의 관찰자나 평정자가 아동의 특정 행동을 평정하는 것과 관련된 채점자간 신뢰도도 포함하여 살펴보았다. 타당도는 ‘검사내용에 기초한 근거’, ‘내적 구조에 기초한 근거’, ‘다른 변수에 기초한 근거’에 기초를 두고 내용타탕도, 구인타당도, 준거관련타당도로 구분하여 고찰하였다. 타당도의 종류는 학자들마다 다양하게 제시되고 있으나, American Educational Research Association (AERA), American Psychological Association (APA)와 National Council on Measurement in Education (NCME; 1985), AERA, APA와 NCME (1999), Chung (2012)에서 공통적으로 제시하고 있는 내용타당도(content validity), 구인타당도(construct validity), 준거관련타당도(criterion-related validity)로 구분하여 살펴보았다.
연구결과
측정 대상 및 영역, 평가자, 측정도구 형식, 측정의 양호도의 측면에서 아동학회지에 게재된 측정도구 관련 연구를 분석한 결과는 다음과 같다.
측정 대상 및 영역과 측정도구의 형식
측정 대상 및 영역
연구도구가 측정하는 내용 영역은 대상과 상호 밀접하게 관련되어 있으므로 이 두 내용을 함께 분석하였다. 먼저 측정 영역을 살펴보면(Table 2) 총 76편의 연구 중 아동을 측정 대상으로 한 측정도구에 관한 것이 49편으로 전체의 약 64.5%에 해당하여 아동의 특성을 측정하기 위한 도구 개발이 가장 큰 비중을 차지함을 보여주었다. 다음으로 가족 관련 측정도구 개발 및 타당도 연구가 15편, 교육기관 관련 척도개발 연구가 9편, 기타 측정 대상으로 다문화가족지원센터, 치료자, 아동·가족·환경에 대한 포괄적 평가를 위한 도구개발이 각 1편씩 총 3편이었다.
측정 내용 영역을 구체적으로 분석한 결과는 Table 3과 같다. 아동 대상 측정도구를 연령대 별로 세분화해보면 영유아 대상이 29편, 초등학생 대상이 17편으로 이 두 범주가 아동 대상 도구개발의 대부분을 차지하였고, 중고등학생 대상이 1편, 아동기 전반에 걸친 광범위한 대상의 특성을 측정하기 위해 개발된 도구 연구가 2편으로 청소년을 대상으로 개발된 측정도구가 상대적으로 매우 부족함을 알 수 있다. 가족관련 측정도구의 경우에는 15개 연구 중 13개는 부모의 양육관련 특성이나 개인의 심리적 특성을 평가하기 위한 도구였으며, 이 중 아버지나 어머니에 대한 명확한 구분이 없이 개발된 도구가 6편, 어머니와 아버지의 특성을 측정하기 위한 도구연구가 각각 5편과 2편으로 아버지 역할에 대한 연구가 증가하는 추세에도 불구하고 여전히 아버지를 대상으로 한 측정도구의 개발이 상대적으로 부족함을 보여주었다. 그 외의 가족관련 측정도구는 2편 모두 가정환경을 평가하기 위한 것이었다. 교육/보육기관과 관련하여서는 교사의 특성을 측정하기 위한 도구가 5편으로 가장 많았고, 교육프로그램을 평가하기 위한 도구 개발에 관한 연구가 3편, 기관의 환경적 특성을 평가하기 위한 도구 개발 연구가 한 편이었다. 기타 측정 대상으로는 다문화 가족지원센터 이용자, 놀이치료자, 교육자료 등이 있었다.
연령대의 구분을 고려하지 않고 측정 내용을 발달영역 별로 구분해보면, 사회정서영역이 기질, 애착, 친사회적 행동, 학교적응, 성발달, 문제행동, 또래놀이행동 등 비교적 다양한 측정 변인을 포함하고 있어 인지나 신체 영역에 비해 많은 수의 척도가 개발되었음을 보여주었다. 한편, 가족관련 평가 도구의 경우 주로 양육행동, 언어통제, 양육참여, 양육효능감 등 부모역할 수행과 관계가 있는 행동이나 태도 등을 측정하기 위한 척도들이었고, 그 외에 부부간 갈등, 가정환경자극, 다문화 가족지원센터 이용자 만족도 척도가 개발되었다. 교육/보육기관에 관련된 척도개발은 아동의 발달과 직접 관련이 있는 교사요인(예: 문제행동지도전략, 효능감, 창의성 증진을 위한 교사 역할 등)에 대한 것이 가장 많았고, 교육프로그램의 질을 평가하기 위한 도구나 환경특성 평가 도구의 개발은 적은 편이었다. 기타 영역에 포함된 측정도구로는 정신건강 위험 요인을 측정하기 위해 아동 개인, 가족, 환경적 특성을 포괄적으로 평가하도록 개발되어 위에 제시한 어느 한 범주에 포함시킬 수 없는 통합적 측정도구와 부모-아동 간 수학적 상호작용을 평가하기 위한 도구 등이 있었다.
좀 더 구체적으로 살펴보면, 영유아와 초등학생 대상 척도 모두 소근육운동기능이나 수학에 대한 태도와 같은 구체적인 영역의 평가부터 전반적 발달에 이르기까지 측정의 범위가 광범위하나 영유아 대상의 평가척도는 초등학생 대상의 도구(예: 게임중독, 수학불안 대처행동, 방과 후 보육생활만족도, 친구관계의 질 등)에 비해 측정영역이 덜 구체적인 편이었다(예: 전반적 발달, 기질, 문제행동, 발달장애 등). 한편, 단 한 편 뿐인 청소년대상의 측정도구 개발 연구는 성발달 평가에 관한 것으로써 이 시기 주요 발달과업을 반영하였다.
측정도구의 형식
측정도구의 형식은 해당 구인을 누가 평가하도록 되어 있는지, 그리고 평가방식과 반응양식은 어떠한지를 중심으로 고찰하였다(Table 4 참조). 먼저, 측정도구의 평정자(혹은 응답자)를 분석한 결과, 부모가 응답(22개), 아동이 직접 응답(21개), 교사 관찰 및 응답(18개), 검사자에 의한 응답(16개), 이 유사한 비율로 분포되어 있었다. 76개의 도구 중 72개의 도구는 단일 보고자에 의해 평가하도록 되어 있으며, 4개 도구(유아교육 프로그램 평가척도, 유아용 반사회적 행동평가 척도, 한국 아버지의 양육참여 척도, 0–36개월 영아발달 선별검사)의 경우에는 두 명 이상의 대상이 동시에 응답하도록 구성되어 있었다. 예를 들어, 유아교육 프로그램 평가척도(Rhee & Lee, 1994)의 경우 교사, 원장, 훈련 받은 관찰자로 하여금 각각 평가하도록 되어 있으며, 한국 아버지 양육참여 척도(H. H. Kim, 2005) 역시 청소년 자녀와 아버지가 모두 응답하도록 되어 있다.
좀 더 구체적으로 발달단계별로 살펴보면, 언어적 능력이 제한되어 자기보고방식의 응답이 어려운 영유아 대상의 척도의 경우 29개 척도 모두 부모, 교사, 또는 훈련받은 검사자가 평가하도록 구성되어 있었으며, 비율은 고르게 분포되어 있었다. 기질이나 놀이행동은 주로 부모가 평가하도록 되어 있고, 전반적인 행동발달이나 또래관련 행동은 대체로 교사가 평가하는 경우가 많았다. 반면, 검사자의 전문성이 요구되는 지적 능력에 대한 평가는 훈련받은 검사자나 임상가가 실시하도록 되어 있었다. 반면, 초등학생 이상 연령의 아동을 대상으로 한 척도는 소수의 경우를 제외하고는 17개의 척도 대부분이 아동 자신의 응답을 기초로 평가하도록 개발된 것이었다. 예외적으로 학교적응 척도는 교사가, 언어영재 판별도구와 창의성 검사 중 하나는 훈련받은 검사자가 아동의 특성을 평가하게 되어 있다. 또한 가족이나 교육/보육기관에 관련된 대부분의 측정도구 역시 부모와 교사가 직접 응답하도록 되어 있으나 예외적으로 아동의 관점에서 평가한 부부관계의 질 척도는 부모가 아닌 아동이 응답하도록 되어 있다.
또한 평가방식을 살펴보면, 76편의 연구 중 51편의 연구에서 질문지법으로 개발되었다. 대상의 심리적 특성이나 행동 특성을 설문지를 통해 측정하는 방식이 대다수를 차지하였다. 그 다음으로는 영유아의 수행을 기초로 검사자가 아동의 수행 능력을 평정하는 방법인 검사법(18편), 영유아의 발달이나 행동특성 등을 관찰을 통해 측정하는 방법인 관찰법(7편)을 활용한 측정도구가 소수 개발되었다. 좀 더 구체적으로 1980년대 이후 10년을 주기로 살펴보면, 1980년대에는 검사법 2편과 질문지법 1편이었으나, 1990년대에는 15편 중 11편이 질문지법, 4편이 검사법이었다. 2001–2010년까지는 관찰법을 활용한 측정도구가 처음 게재되었고(5편), 검사법이 소수 개발되었고(10편), 질문지법이 대다수를 차지하였다(25편). 2011년 이후에는 18편 중 관찰법이 2편, 검사법이 2편, 대다수는 질문지법으로 구성되었다.
마지막으로 측정의 반응양식을 분석한 결과, 개발된 측정 도구들은 주로 등간척도인 리커트 척도를 사용하여 측정하였다. 리커트 척도를 사용하는 대다수의 측정도구는 3점~5점 리커트 척도로 구성되어 있었고, 각 문항에 대해 동의하는 정도에 따라 ‘전혀 그렇지 않다’에서 ‘매우 그렇다’까지 양적으로 평정하도록 구성되었다. 리커트 척도의 점수 범위가 가장 넓은 것은 유아교사의 효능감 측정도구(S. Y. Kim & Seo, 2010)로서 9점 리커트 척도를 사용하였다. 또한, 척도 점수가 짝수(예를 들면, 2, 4, 6점 등)인 척도에 비해 홀수 척도(예를 들면, 3, 5, 7점 등)가 좀 더 많은 것으로 나타났다.
영유아의 전반적 발달을 측정하는 검사도구(예: 베일리 유아발달검사, 영아발달 평가도구, 영유아용 발달검사, K-CDI 아동발달검사, 영유아 환경자극척도(EC-HOME), 유아 수행형 다중지능검사 등)의 경우 주로 예/아니오의 체크리스트 형식으로 측정되었다. 또한 지능검사(예: 한국웩슬러 유아지능검사)의 경우 성공적 수행의 여부에 따라 점수가 부여되는 형식으로 측정되었다.
또한 몇몇 측정도구는 도구의 특성상 각기 다른 점수체계가 적용되었다. 일례로, 또래관계의 질 측정도구(Chun, 1999)에서는 친구로 지명된 빈도수를 점수화하였고, 유아의 친사회적 행동평가척도(Y.-O. Kim, 2003)에서는 친사회적 행동의 빈도수를 점수화하였으며, 유아기 부모의 수학적 상호작용척도(J. H. Kim, 2015)의 경우 관찰된 행동의 빈도수를 점수화하였다. Torrance 창의성 검사의 경우, 아동의 검사 수행에서 나타난 창의적 반응의 수를 점수화하였다. 하지만 몇몇 측정도구(예: 아동의 방과후 보육생활만족도 척도(Shin & Suh, 2010), 아동의 부정적 정서표현에 대한 어머니 반응척도(Oh, 2013) 등)에서는 구체적인 척도 점수가 보고되지 않았다.
측정의 양호도
측정도구의 양호도는 측정도구 개발 시 제시한 신뢰도와 타당도를 분석하여 살펴보았다. 이에 대한 결과는 Table 5에 제시되어 있다.
신뢰도
개발된 측정도구의 신뢰도는 크게 내적합치도, 반분신뢰도, 검사재검사신뢰도, 동형검사신뢰도로 구분하여 살펴보았고, 관찰이나 검사로 이루어지는 측정도구의 경우 검사자간 신뢰도가 제시되어 있는지를 확인하였다.
분석대상 측정도구의 대부분(76편 중 72편)의 경우, 신뢰도 검증은 내적합치도를 통해 이루어졌고, 이외 추가로 검사재검사 신뢰도나 반분신뢰도를 제시하였다. 전체 개발된 측정도구 중 두 가지 이상의 신뢰도를 제시한 측정도구는 31개였고, 세 가지 이상의 신뢰도를 보고한 측정도구는 다섯 개였다. 일례로 아동용 Luria-Nebraska 신경심리검사(C. Y. Kang, 1992)의 경우 채점자간 신뢰도, 내적합치도, 반분신뢰도를 제시하였고, 교사평정용 영아발달도구(Y. J. Lee, Lee, Shin, Kwak, & Lee, 2001)에서도 내적합치도, 검사재검사 신뢰도, 평정자간 신뢰도를 제시하였다.
관찰이나 검사를 통해 이루어지는 측정도구에서는 평정자 간 일치도를 보고하였다. 예를 들어 Torrance 창의적 사고력 검사(S. Y. Cho, 1985)에서는 채점자간 신뢰도를 제시하였고, 교사평정용 영아발달 평가도구(Y. J. Lee et al., 2001)에서도 평정자간 신뢰도를 보고하였다. 그러나 몇몇 연구에서는 검사나 관찰로 이루어지는 측정도구임에도 불구하고 평정자간 신뢰도가 보고되지 않았다. 또한, 측정도구의 신뢰도가 전혀 보고되지 않은 연구도 한 편 있었다.
타당도
측정도구의 타당도는 내용타당도, 구인타당도, 준거관련타당도를 기준으로 살펴보았다. 개발된 대부분의 측정도구들은 타당도를 보고하였다. 75편의 연구 중 60편에서 구인타당도를 통해 타당도를 검증하였고, 추가로 준거관련타당도나 내용타당도를 함께 보고하였다. 구인타당도는 대체로 요인타당도를 제시하였는데, 초기에는 주로 탐색적 요인분석을 통해 타당도를 검증하였으나 2005년 이후 확인적 요인분석을 통해 타당도를 검증하는 연구가 증가하였다.
개발된 측정도구 중 두 가지 이상의 타당도를 제시한 측정도구는 49개였다. 예를 들어 어머니의 격리불안 척도(B. H. Cho & Park, 1992), 아동행동평가척도(Han & Yoo, 1995) 등은 구성타당도와 준거관련 타당도를 함께 제시하였다. 이 중 세 가지 이상의 타당도를 제시한 측정도구는 13개인 것으로 나타났다. 걸음마기 아동의 정신건강 위험요인 선별척도(J. H. Lee & Lee, 2006), 아동용 탄력성 척도(Ju & Lee, 2007) 등이 그 예로서 내용타당도, 구성타당도, 준거관련 타당도를 통해 측정도구의 타당도를 검증하였다.
한편, 5개의 측정도구(예: Torrance 창의적 사고력 검사(S. Y. Cho, 1985), 언어영재 판별도구(Y. S. Jang & Gu, 2002) 등)는 준거관련타당도만을 제시하였고, 두 개의 측정도구(예: 표준보육과정에 기초한 영아관찰 척도(M.-H. Kang & Hwang, 2011), 한국형 베일리 영유아 발달검사 제 3판 소근육 운동척도(S. H. Lee, Ahn, Lee, & Bang, 2014)는 내용타당도만을 제시하였다. 하지만, 몇몇 측정도구(예: 베일리 유아발달검사(Jae, 1984), 인지기능응용척도(E. L. Cho & Hwang, 2010) 등)에서는 타당도를 충분히 보고하지 않았다.
논의 및 결론
본 연구에서는 지난 30여년 간 아동학회지에 게재되었던 측정도구 개발과 타당화에 대한 연구 76편을 요약하고 그 경향을 측정내용과 형식, 그리고 측정의 양호도 측면에서 고찰하였다. 개발된 측정도구나 검사 도구는 관련 분야의 후속 연구를 파생시키고 해당 분야의 연구 활성화에 기여한다는 점에서 매우 중요하다. 이에 지금까지 소개되었던 측정도구에 대한 주요 고찰 결과를 중심으로 한 논의점을 서술하면 다음과 같다.
첫째, 개발된 측정도구의 대상에 대한 결과를 살펴보면, 영유아를 대상으로 한 도구가 가장 많은 비중을 차지하고 있음을 알 수 있다. 이와 같은 경향은 아동학 관련 분야에서 조기 선별과 중재프로그램의 제공이 강조되고 있다는 점과 무관하지 않을 것이다. 즉 조기 중재의 대상 선별이나 그 효과의 검증을 위해서는 신뢰롭고 타당한 도구개발이 필수적이기 때문에 측정도구의 개발이 다른 연령집단에 비해 더 활발하게 이루어졌을 가능성이 있다. 그러나 영유아를 대상으로 한 측정도구를 개발하고 사용하는 데 있어서 반드시 고려해야할 사항을 염두에 둘 필요가 있는데, 이는 기본적으로 영유아기의 발달적 특성에 기인한 것이다. 우선, 영유아기에는 전반적인 발달적 변화의 속도가 매우 빠르기 때문에 신뢰도와 타당도 면에서 양호한 측정도구를 개발하는 것 자체가 쉽지 않은 과제이다(Nagle, 2007). 뿐만 아니라 짧은 주의집중 시간, 낮은 동기수준, 낯선 타인에 대한 긴장감, 높은 활동 수준 등 때문에 영유아의 수행에 기초한 측정은 더욱 어려울 수 있다. 그럼에도 불구하고 어린 아동을 대상으로 한 평가의 방식은 의미 있는 맥락 내에서 개별 아동의 특수성을 고려하여 다양화되어야 한다는 주장이 계속되고 있다. 이와 관련하여 Notari-Syverson와 Losardo (2004)는 다양하고 자연스러운 맥락 내에서 아동이 행동이나 기술을 실행할 기회를 제공하고 이를 관찰하는 방식(curriculum-based assessment), 실제 상황에서 과제를 완수하도록 함으로써 아동의 지식이나 적용능력을 평가하는 방식(performance assessment), 그리고 아동이 보이는 반응의 선행사건과 결과를 평가함으로서 아동이 보이는 반응의 이유나 과정을 이해하는 방식(dynamic assessment) 등을 제안한 바 있다. 그러나 본 연구의 분석대상에 포함된 측정도구들 중 영유아를 대상으로 한 다수의 도구들은 이와 같은 다양성 면에서는 제한적임을 알 수 있다. 따라서 추후에는 영유아의 발달적 특성을 고려한 대안적 평가 방법들이 개발될 필요가 있을 것으로 사료된다.
둘째, 평정자와 관련된 사항으로서 검사나 관찰을 기초로 평가하도록 개발된 도구의 경우 주로 훈련된 검사자나 관찰자에 의해 평가가 이루어지고 있으나, 평가자의 자격이나 훈련 여부에 대한 규정이 명확하지 않은 경우도 소수 있었다. 검사법의 경우 검사의 절차가 표준화된 정도와 검사자의 숙련도에 따라 평가결과는 달라질 수 있다. 검사에서 아동의 수행정도가 아동의 능력을 반영한다는 점을 고려해볼 때 검사도구 개발에 있어 검사의 구체적인 절차나 검사자의 특성에 대해 충분한 설명이 제시될 필요가 있다. 마찬가지로 관찰자의 경우 관찰자의 훈련 정도도 관찰결과에 상당한 영향을 미치는 만큼 관찰척도 개발에 있어 관찰자 지침, 관찰자 훈련 절차 및 관찰자 간 신뢰도 등에 관한 정보를 충분히 제시할 필요가 있다. 질문지법의 경우 질문지 응답이 불가능한 영유아의 경우 교사나 부모 중 한 명이 유아의 특성을 평정하는 것으로 나타났고, 아동이나 청소년의 경우 자기보고 형식이 대다수인 것으로 나타났다. 타인 평정의 경우 특정 행동에 대한 객관적인 평가가 가능하다는 장점이 있는 반면 개인의 심리적 특성을 잘 반영하기 어려운 단점이 있고, 자기보고 형식의 경우 개인의 내적 특성을 잘 반영할 수 있다는 장점이 있는 반면 사회적으로 바람직한 반응을 보이거나 주관적인 평가일 수 있다는 단점이 있다. 이러한 자기보고가 타인평정이 갖는 각각의 장단점을 고려해 볼 때 한 개인의 특성을 다차원적으로 보고할 수 있는 척도의 개발이 필요할 것으로 사료된다.
측정도구의 형식과 관련하여, 질문지법이 대다수를 이루고 있고, 검사법과 관찰법을 활용한 측정도구가 소수 개발되었다. 질문지법의 경우 검사법이나 관찰법에 비해 실시나 적용이 쉽다는 점에서 그 가치가 높다. 하지만 질문지법의 경우 이론적으로 합당한 구성개념을 기초로 충분한 타당도와 신뢰도가 보증되지 않는 한 그로부터 도출된 결과는 신뢰하기 어렵다는 점도 반드시 고려해야 한다. 특히 영유아를 대상으로 한 측정도구들 중 질문지법은 주로 부모나 교사에 의해 평정되는 만큼 영유아에 대한 정확한 평정이 이루어질 수 있도록 질문지 작성 전에 구체적인 지침(예를 들면, 영유아 행동 평정에서 최근 얼마의 기간을 중심으로 살펴볼 것인지)을 제공하는 것이 필요할 것으로 사료된다. 또한 영유아에서 아동기까지의 발달의 변화의 폭이 크고 변화의 속도도 다양하기 때문에 단 한 가지의 형식을 활용하여 측정하기보다는 관찰법, 질문지법, 검사법 등을 다양하게 활용하여 측정하는 것이 필요할 것이다.
측정의 반응양식과 관련하여 살펴보면, 질문지법의 경우 평정척도를 활용하였고, 검사법의 경우 체크리스트나 수행정도에 따라 각기 다른 점수를 부여하는 방식을 활용하였고, 관찰법의 경우 빈도수나 평정척도를 활용하기도 하였다. 평정척도의 경우 양적 분석으로 활용되기 쉽다는 점이 있으나, 반응하기 애매할 경우 점수가 중앙으로 몰릴 가능성도 높다. 이러한 점을 고려해서 보통은 존재하지 않는 긍정과 부정으로만 이루어진 짝수 척도가 활용되고 있기도 한데, 무엇보다 각 문항에 적절한 평정이 이루어지도록 척도를 구성해야 할 것이다.
측정도구의 양호도와 관련하여 신뢰도 검증의 경우 거의 대다수의 측정도구들이 내적합치도를 산출하였고 그 외에도 각 측정도구의 특성에 맞게 검사재검사 신뢰도, 반분신뢰도 등을 추가적으로 제시함으로써 측정도구의 신뢰도를 입증하였다. 하지만 내적합치도의 경우 측정도구의 모든 문항이 같은 특성을 측정하는지를 추정하는 것으로서(Chung, 2012), 내적합치도지수가 최소 .70이상은 유지되어야 적정함(Tsang, Wong, & Lo, 2011)에도 불구하고 몇몇 연구에서는 이보다 낮은 신뢰도 지수를 보고하고 있어 이에 대한 개선이 필요할 것으로 사료된다. 한편, 소수의 연구는 측정도구의 신뢰도를 보고함에 있어 부적합한 신뢰도 지수를 제시하는 제한점을 드러내기도 하였다. 예를 들어 시간의 경과에 따른 검사결과의 안정성이 중요한지 혹은 척도를 구성하는 문항들이 관련성이 높은 내용들로 일관성 있게 구성되어 있는지가 중요한지를 판단한 후 이에 적합한 신뢰도 지수를 보고해야 한다. 그러나 몇몇 측정도구의 경우 내적합치도를 산출하는 것이 적절하지 않음에도 불구하고 내적합치도를 보고하여 검사의 양호도에 대한 평가를 내리는 데 어려움이 있었다. 따라서 측정도구의 특성에 따라 적절한 유형의 신뢰도를 산출하는 것이 필요하다고 할 수 있다. 이와 더불어 관찰이나 검사법의 경우 관찰자간 신뢰도나 검사자간 신뢰도가 반드시 제시되어야 한다. 하지만 몇몇 검사도구나 관찰도구에서는 이러한 신뢰도가 충분히 보고되지 않았다. 아동에 대한 검사나 관찰의 오류를 방지하고 객관성을 유지하기 위해서는 검사자나 관찰자간 신뢰도를 산출한 방식과 수치도 구체적으로 제시하는 것이 요구된다.
타당도의 경우 대다수의 측정도구들이 구성타당도(요인분석)를 중심으로 타당도를 검증하였고, 과반수 이상의 측정도구에서 추가적으로 준거관련타당도나 내용타당도를 함께 보고함으로써 측정도구의 타당도를 입증하였다. 측정도구의 타당도는 측정하고자 하는 것을 제대로 측정하는지와 관련된 것으로서 단순히 한 가지의 근거를 제시하는 것보다 다양한 종류의 근거를 제시하는 것이 바람직하다(Seong, 2002)는 점을 고려해 볼 때, 앞으로의 측정도구 개발에서도 다양한 근거를 활용한 타당도 검증이 필요할 것으로 사료된다. 한편, 내용타당도의 경우 내용타당도를 어떻게 산출했는지에 대한 근거를 제시할 필요가 있다. 단순히 내용타당도를 검증받았다의 여부를 제시하기보다는 전문가들로부터 내용타당도비율(content validity ratio)을 산출한 결과를 제시하는 것도 하나의 대안으로 제시될 수 있다.
셋째, 다양한 발달시기에 따른, 다양한 발달 영역에 대한, 그리고 다양한 평정자를 고려한 측정도구 개발이 필요한 실정이다. 앞서 언급한 것처럼, 지금까지 아동학회지에 게재된 측정도구 관련 논문들 중에는 단 2편만이 청소년을 연구대상으로 한 측정도구였다. 하지만 최근 2차 성징 발현 연령이 상대적으로 빨라지면서 전통적으로 아동기로 간주되었던 연령에서 청소년기 특성이 나타나기도 하므로 청소년기까지 연구 대상을 확장하여 측정도구를 개발하고 타당화해야 할 필요가 있다. 이와 더불어 지금까지 특정 발달 영역에 편중되어 측정도구가 개발되어온 경향이 있으므로 상대적으로 측정도구 개발이 적었던 인지 영역이나 도덕성이나 양심과 같은 간과되어왔던 주제에 대한 측정도구 개발도 필요할 것으로 보인다. 그리고 발달 시기상 영유아기의 경우에는 질문지법을 활용하는 경우 주로 부모나 교사가 평정자가 되고 있다. 영유아기의 의사소통상의 제한점을 충분히 감안하여 부모 평정을 이해한다 하더라도 연구나 정책에서는 양육이나 자녀의 발달에 미치는 영향에 있어 아버지 고유의 역할이 중요시 되고 있음을 감안한다면 아버지가 독립된 평정자가 될 수 있도록 설계된 측정도구가 필요한 실정이다. 즉, 아버지를 평정자 혹은 중요한 측정대상으로 고려한 측정도구 개발이 필요하다.
마지막으로 본 연구결과, 그동안 개발되었거나 타당화된 측정도구 대부분의 연구대상은 아동 자신이거나 아동을 둘러싼 대표적인 미시환경인 가족과 교육기관이었다. 가족과 유보육기관은 아동의 발달에 직접적으로 영향을 미치는 대표적인 미시체계이다. 이에 이러한 미시 체계적 특성을 측정하기 위한 그리고 분석단위를 고려한 데이터 수집을 위해 가족 환경적 특성(예, HOME)을 평가하는 혹은 교육기관 특성을 평가하는 측정도구 개발도 더욱 필요할 것으로 보인다.
Conflict of Interest
No potential conflict of interest relevant to this article was reported.