2/19/2008

표준화 평가의 어제와 오늘

한우리독서문화운동본부 창립15주년 학술세미나(2005년 11월)에 발표했던 글입니다.
http://www.hanuribook.or.kr/hanuri/bbs/new_view.html?idx=229&searchword=&select=&page=10
표준화 평가의 어제와 오늘
-미국의 사례를 중심으로-
옥현진(University of Texas at Austin)
필자는 고등학교 교사 시절 대학수학능력시험과 평준화 지역 고입 시험을 몇 차례 감독했던 경험이 있다. 그 때 일어난, 지금 생각해도 머리끝이 쭈뼛해지는 경험담 하나로 이 글을 시작하려고 한다.
한 번은 고입 평준화 시험에 부감독관 역할을 맡게 되었다. 국어와 영어 시험에는 듣기 평가가 포함되고 이 듣기 평가는 FM 라디오를 통해 전국의 모든 시험장에 동시에 방송되기 때문에 방송 시작 전 학생들은 시험지를 미리 건네 받고 듣기 시험을 치를 만반의 준비를 하고 있어야 한다. 그런데 문제는 누군가의 착오로 방송이 예정 시간보다 10분이나 일찍 시작된 것이었다. 이제 막 문제지를 세기 시작한 필자와 주감독관은 1 분 뒤에 듣기 평가가 시작된다는 방송에 얼굴이 사색이 되어 문제지를 흩뿌리다시피 했지만 결국 마지막 수험자가 시험지를 받았을 땐 이미 2번 문제가 시작되고 있었다. 그 때까지도 영문을 모르고 다만 우리의 착각으로 우리 교실에서만 벌어진 일이라 믿었던 필자와 주감독관은 앞으로 벌어질 엄청난 사태를 예감하며 어찌할 줄을 몰라 했다. 학생들도 당연히 우왕좌왕할 수밖에 없었다. 결국 몇 분 뒤에 방송을 통해 우리의 실수가 아니었음을 알게 되었을 때의 그 허탈감과 안도감이란 이루 말로 표현하기 힘든 것이었다.
만약 그 사태가 정말로 두 감독관의 실수로 벌어진 일이었으면 어떻게 되었을까? 가장 큰 문제는 어떤 방법으로 그 교실에 있던 수험생들이 받은 불이익을 보전해 주는가 하는 점이다. 불과 1~2점의 점수차로 수백 명의 학생들의 당락이 뒤바뀌고 진학하고자 하는 학교가 달라지는 상황에서 형평성 문제는 정말로 민감한 사안이 아닐 수 없다. 그 날의 사건은 결국 방송을 녹음한 테이프로 듣기 평가를 다시 치르는 것으로 마무리되었지만, 앞자리에 앉은 덕분에 시험 문제지를 일찍 받았던 학생들은 결국1~2번 문제를 두 번 풀 수 있는 기회를 가졌던 셈이므로 형평성 문제가 완전히 해소되었던 것은 아니다. 그러나 이 부분은 크게 쟁점이 되지 않고 넘어 갔던 것으로 기억한다.
대입수학능력시험과 평준화 지역 고입 시험은 가장 대표적인 표준화 평가이다. 표준화 평가(standardized assessment)란 평가의 실시, 채점, 해석이 동일하도록 모든 형식과 절차를 표준화한 평가 방식을 말한다. 앞서의 일화에서도 충분히 짐작하듯 고입 시험과 수능처럼 단 한 번으로 끝나버리는 표준화 평가는 수험자 개인뿐만 아니라 그 가족, 그리고 우리 사회 전반에 실로 엄청난 파장을 불러일으킨다. 수능 당일 듣기 평가를 위해 모든 항공기의 이착륙을 금지하고 수험생들이 제시간에 편히 시험장에 도착할 수 있도록 관공서와 회사가 출근 시간까지 늦추는 것만 보더라도 우리 사회가 수능의 결과를 얼마나 심각하게 받아들이고 있는지 가늠할 수 있다.
그렇다면 왜 우리는 이렇게 표준화된 일회성 평가에 모든 것을 거는가? 이런 평가를 목표로 공부하다 보면 읽기 능력은 저절로 키워지는가? 이 글은 표준화된 평가, 그 중에서도 읽기 영역의 표준화 평가의 역사를 미국의 경우를 중심으로 되짚어 보고, 이를 바탕으로 표준화된 읽기 평가가 읽기 교육에 어떤 영향에 미치는지에 대해 논의해 보고자 한다. ‘다른 산의 하찮은 돌이라도 자기의 옥돌을 가는 데에 도움이 된다(他山之石可以攻玉)’는 시경의 구절처럼, 필자가 소개하는 이 미국의 사례가 단지 다른 나라의 풍물 읽기에 그치지 말고 우리의 읽기 교육을 다시 한 번 점검해 보는 기회가 되기를 희망한다.

표준화 평가 도입의 사회적 배경
미국 공교육사에서 표준화 평가가 본격적으로 도입되기 시작한 것은 1910-1925년경이다. 그러나 이 시기에 표준화 평가가 도입된 배경을 이해하기 위해서는 이보다 앞선 시대의 미국 사회로 잠시 거슬러 올라가 볼 필요가 있다.
주지하다시피 미국은 이민자들이 세운 국가다. 1620년 메이플라워 호가 매사추세츠 주 남쪽 플리머스 해안에 도착한 이래 미국으로의 이민자는 점진적으로 증가했다. 그러나 1820년경에 이르러서는 그 숫자가 폭발적으로 증가하기 시작해서, 미국 교육부 통계 자료 (U.S. Department of Education, 1998)에 따르면 1870년 당시 3,800만 명이던 인구는 1900년경에 이르러 그 배인 7,600만 명에 달하게 된다(그림 1). 같은 시기에 학령기 아동의 숫자도 1100만 명에서 2200만 명으로 두 배나 증가했고, 또 실제로 이 시기에 공립 학교에 등록한 학생의 수도 680만 명에서 1,550만 명으로 늘어났다. 이에 따라 교육에 쏟아 부어야 하는 재정도 엄청난 폭으로 늘어나야 했고, 결과적으로 납세자들의 부담은 커져만 갔다.


그림 1. 1800년대 미국 이민의 증가

그러나 문제는 쏟아 붇는 재정의 양에 비해 학교가 역할을 제대로 수행하지 못한다는 것이었다. 일례로 1학년 단계에서는 여섯 명에 한 명 꼴로 진급 보류가 발생한 반면, 8학년에 이르면 두 명에 한 명 꼴로 진급이 보류되는 사태가 생기고 말았다(Johnston, 1984). 이는 단순히 학습 부진이라는 교육적 차원의 고민을 넘어 하나의 미국 만들기(melting pot)와 산업 사회에 필요한 표준화되고 수준 높은 노동 인력의 확보라는 국가 정책에도 큰 걸림돌로 작용했다. 이렇게 되자 납세자, 정책 결정자, 그리고 교육 행정가들은 학교의 효율성(efficiency)을 측정할 수 있는 새로운 제도적 장치 도입을 요구하고 나섰다. 이 같은 효율성에 대한 강력한 요구는 당시 기업 경영과 공장 운영 등을 중심으로 미국 사회 전반에 확대되고 있었던 효율성 증대라는 슬로건과도 무관하지 않은 것이었다 (Venezky, 1984).
표준화 평가가 정당화되었던 또 한 가지 중요한 이유는 공평의 원칙 때문이었다. 즉, 부모들은 평가의 내용과 방법을 광범위한 지역에 걸쳐 표준화함으로써 교실 한 개 짜리 시골 학교의 아이들도 대도시 큰 학교의 아이들에 못지않은 공평한 교육을 받을 수 있을 것이라고 믿었다.
기존의 학년제에 대한 불만도 표준화 평가의 등장을 재촉했다. 기존의 학년 구분은 학생의 지적 수준에 대한 충분한 고려 없이 주로 나이를 기준으로 이루어졌기 때문에 많은 교육자들이, 심지어 당대의 진보주의 교육자들조차도 좀더 타당한 방법으로 학년을 구분할 수 있어야 제대로 된 교육이 이루어질 수 있다는 이유에서 표준화 평가를 찬성하고 나섰다(Valentine, 1987).
미국 내 유명 대학들에서도 불만의 목소리가 터져 나왔다. 중등 학교가 제 역할을 수행하지 못해 대학이 감당해야 할 몫이 그만큼 커졌다는 것이 그 첫째 이유였다. 두 번째 이유는 학생 선발이 너무 힘들다는 것이었다. 고등학교마다 가르치는 교육내용이 다르고 평가 방식이 다르다 보니 대학측으로서는 이 혼란스러운 절차를 간소화하기 위해 한줄 세우기가 가능한 표준화된 평가 방식이 절실했던 것이다.


지능 검사의 발달
앞서 언급한 미국 사회의 요구는 주로 학교 교과 영역의 학업 성취도를 표준화한 평가와 관련이 깊다. 그러나 이런 유형의 평가가 탄생하기에 앞서 미국 사회에 도입된 표준화 평가는 지능 검사였다. 지능 검사는 그 자체로도 학교 교육에 큰 영향을 미쳤을 뿐만 아니라 교과 영역 표준화 평가의 탄생과 발달에도 방법론적 토대를 제공해 주었다는 점에서 짚고 넘어갈 필요가 있다.
지능 검사라는 아이디어는 19세기 후반 인종우생학의 창시자였던 영국인 학자 갤턴(Francis Galton)에게서 비롯되었다(U.S. Office of Technology Assessment, 1992; Sacks, 1999). 다윈의 사촌 동생으로서 다윈의 진화론에 많은 영향을 받았던 갤턴은 인간 정신에도 우열이 존재한다는 전제 아래, 그의 미국인 동료 겸 제자인 카텔 (McKeen Cattell)과 함께 인간 정신을 측정할 수 있는 방법과 관련된 기초 연구들을 실시했다. 실험심리학의 창시자 분트(Wilhelm Wundt)의 제자이기도 했던 카텔은 미국으로 돌아와 최초로 심리학 교수가 되었으며, 후에 교과 영역의 표준화 성취도 평가(Standardized achievement test)의 기초를 마련한 에드워드 손다이크(Edward Thorndike)에게 지대한 영향을 미쳤다(Venezky, 1984).
그러나 앞서 거론한 이들의 연구가 주로 우생학적 관심에서 비롯된 의사과학(pseudoscience) 수준의 검사였다면, 이를 실용적, 과학적 수준으로 끌어올려 현재 우리가 사용하는 지능 검사의 원형을 제공한 사람은 프랑스인 과학자 비네(Alfred Binet)와 그의 동료 시몽(Theodor Simon)이었다(Wigdor & Garner, 1982; Sacks, 1999). 이들은 프랑스교육상 특별위원회의 요청에 따라 취학 연령 아동들 중에서 정신 능력의 발달이 지체되어 일반 교실에서 수업을 받기 힘든 아동들을 판별할 수 있는 도구를 개발했는데, 이것이 널리 알려진 비네-시몽 척도(Binet-Simon Scale)이다.
비네-시몽 척도를 받아들여 이를 미국 상황에 맞게 수정한 사람은 당시 스탠포드 대학의 교수였던 터먼(Lewis Terman)이었다. 그가 만든 스탠포드-비네 척도(Stanford-Binet scale)는 기존의 검사가 가진 한계, 즉 훈련 받은 검사자가 검사 대상자와 일대일로 마주 앉아 검사를 실시해야 했던 불편을 극복하여 종이와 연필만으로 실시할 수 있는 시험 형태로 바꿈으로써 대량 동시 평가를 가능하게 만들었다.
이런 변화를 가장 먼저 도입한 곳은 미 육군이었다. 제 1차 세계 대전이 진행 중이던 1918년, 하버드 대학의 교수이자 미국심리학회(American Psychological Association)의 회장이었던 여키스(Robert Yerkes)는 터먼의 지능 검사에 기초해 군인들의 지적 능력을 측정하고 그 결과에 따라 군인들을 효율적으로 선발, 배치할 수 있도록 미 육군 알파 검사(Army Alpha Test)를 개발하였다. 이 검사 개발에 연구 조원으로 참여했던 칼 버리검(Carl Brigham)은 나중에 이를 대학입학시험에 활용할 수 있도록 변형시켰고, 이것이 SAT(학업 적성 검사, Scholastic Aptitude Test)의 시초가 된다. SAT는 1926년 약 8,000여 명의 고등학생을 대상으로 하여 최초로 시행된 이래 미국 대학입학시험의 대명사가 되었다(U.S. Office of Technology Assessment, 1992).
그러나 지능 검사는 사실 SAT가 도입되기 이전부터 대학 입학 사정의 중요한 자료로 활용되고 있었다. 1920년경에 벌써 약 200여 개의 대학이 지능 검사의 결과를 고등학교 학업 성취 결과보다도 더 중요한 자료로 판단, 활용하였다. 대학 입학 사정 뿐만 아니라 일선 고등학교에서도 지능 검사의 결과는 학생들을 직업반과 대학 진학반으로 편성하는 데 기초 자료로 활용되었다. 표준화 평가는 이미 이 때부터 학생들의 장래를 결정하는 데 본격적으로 활용되기 시작한 것이다.


표준화된 성취도 평가(Standardized achievement test)의 등장
표준화된 성취도 평가의 시초는 컬럼비아 대학(Columbia University)의 교수였던 에드워드 손다이크(Edward Thorndike)가 1910년에 발표한 서체 척도(handwriting scale)로 여겨진다(Smith, 2002). 1910년 당시에는 글씨를 잘 쓰는 것이 중요한 학교 교육 목표 중 하나였던 만큼, 이 논문의 요지는 학생들이 쓴 글씨의 수준을 미리 마련된 견본(그림 2)에 비추어 봄으로써 표준화된 평가를 실시할 수 있다는 것이었다. 이 표준안을 마련하기 위해 손다이크는 5-8학년 학생들로부터 모두 천 여개의 서체 표본을 얻은 다음, 이를 30-40명의 전문가들로 하여금 11단계로 나누어 평가하도록 하였다. 채점 평균점수에 따라 분류된 표본들 중에서 가장 표준편차가 적었던 표본이 각 단계의 표준안으로 채택되었다.

이 논문 이후 손다이크는 산수(arithmetic), 그리기, 읽기, 철자법 등 여러 교과에 활용할 수 있는 표준화 평가 자료를 계속해서 개발하였다. 손다이크 이후 초ㆍ중등 각 교과 영역에서의 표준화 평가 자료는 봇물 쏟아지듯 발표되기 시작해 1918년까지 여러 교과에 걸쳐 모두 백 가지가 넘는 평가가 발표 되었다(U.S. OTA, 1992).
1910년 이전까지 모두 34편에 불과했던 읽기 영역에 대한 연구도 교육 연구의 과학화 경향에 부응해 1910년에서 1924년까지의 사이에 436편으로 늘어났으며, 이 중 상당수는 읽기 영역의 표준화 평가에 대한 연구였다. 한 예로, 1914년과 1915년 사이에 발표된 읽기 연구의 3분의 2는 모두 읽기 표준화 평가와 관련되어 있었을 정도였다(Smith, 2002).
읽기 영역에서 최초로 개발된 표준화 평가는 1914년에 그래이(William Gray, 해설 1)가 개발한 음독 평가(oral reading assessment)였다(Pearson, 2001). 이 평가에는 우선 수준이 서로 다른 일련의 글과 그 각각의 글마다 읽기 완료 시간에 따라 서로 다른 점수를 줄 수 있는 기준이 마련되었다. 이 평가에서는 또 평가자가 피평가자의 음독 오류를 쉽게 분석할 수 있도록 생략, 첨가, 치환, 잘못된 발음, 반복, 자발적 교정, 구두점 무시 등 여러 가지 오류 유형이 제안되었다.
최초의 표준화된 읽기 평가가 비록 음독 평가이긴 했지만, 이 시기에 발표된 읽기 평가의 주된 경향은 묵독(silent-reading) 평가였다. 그 이전까지의 읽기 수업이 주로 음독 중심으로 이루어졌고 평가 역시 학생들의 음독 수준을 교사가 스스로 마련한 기준에 따라 평가하는 것이 대부분이었다는 점에 비추어 볼 때 이러한 변화는 획기적인 것이었다.
이러한 변화는 첫째 미국 사회 전반에 인쇄 문화가 완전히 정착되었음을 보여주는 결과였다. 인쇄 문화가 보편화되지 않은 사회에서 한 지방 사람들이 접하는 책은 다른 지방에서 나온 것과 차이가 있다. 즉, 낯선 언어로 되어 있거나 언어는 같아도 철자법이 다르게 된 것이어서 이를 이해하기 위해서는 소리를 내어 읽어서 음성적 유사성을 통해 의미를 이해해야 한다. 따라서 이러한 읽기는 음독과 듣기를 강조하게 마련이다. 그러나 인쇄술이 도입되어 똑같은 책이 대량 출판되고 사전이 편찬됨에 따라 지방어들은 신속하게 표준화되어 버린다. 이에 따라 읽기도 한층 쉬워지고 소리 내어 읽을 필요도 없어지는 것이다(McLuhan, 1962).
둘째로 이러한 변화는 루소, 페스탈로찌, 헤르바르트, 프뢰벨 등으로 이어져 내려온 자연 중심, 생활 중심, 의미 중심의 교육 사조와도 관련이 깊다(Smith, 2002). 이들의 이러한 교육 사상을 읽기 수업에 도입, 적용한 사람은 파커(Francis Parker)였다. 파커는 우선 읽기의 가장 기본적인 목적이 이해에 있으며 이를 위한 가장 일상적인 방법은 묵독임을 강조하였다. 또한 그는 음독을 이해보다는 표현에 가까운 것으로 간주하고 읽기 수업이 의미 중심의 수업이 되기 위해서는 기계적인 되풀이와 모방이 중심이 되는 음독보다는 묵독이 그 중심이 되어야 한다고 주장하였다. 파커는 더 나아가 읽기가 학생들의 흥미를 유발하고 또 학생들의 생활 경험과도 직접적으로 관련되어야 한다는 신념 아래 자신의 이름을 딴 실험 학교(Francis W. Parker school of Chicago)를 통해 활동 중심의 읽기 교육을 구체화하기도 하였다.
묵독 평가의 예로 먼저 스타치(Starch, 1915)의 읽기 평가를 살펴보면, 이 시험에서는 우선 30초 동안 두 편의 다소 긴 글을 읽는 시간이 주어진 다음, 시간에 제한 없는 자유 회상(free recall)이 실시되었다. 이 시험의 결과(성적)는 회상된 전체 단어 중에서 읽은 내용과 관련 있는 단어의 비율을 계산하여 얻을 수 있었다.
커티스(Courtis, 1917)가 개발한 평가는 3분 동안에 두 쪽 분량의 이야기를 최대한 많이 읽은 다음, 다시 5분 동안에 몇 개의 단락으로 나뉘어진 그 이야기를 다시 읽으며 각 단락마다 제시된 다섯 개의 O/X형 문제에 답을 하도록 고안되었다.
이 밖에도 빈칸 메우기, 선택형 등 다양한 형태의 평가 방법이 도입되었으며, 평가마다 사용되는 지문의 형태나 길이도 다 달랐다.

테스트 배터리(Test Battery)
테스트 배터리란 한 벌로 된 평가 도구를 가리킨다. 이 속에는 여러 교과의 표준화 평가 도구가 각 학년별로 구비되어 있다. 가령 터먼이 1923년에 개발한 스탠포드 성취도 검사 (Stanford Achievement Test, SAT)는 읽기와 산수 등 기초 교과의 성취도를 2학년에서부터 8학년까지 측정할 수 있었다. 이 평가에 응시한 학생의 결과는 35만 명의 표본의 결과와 비교되었는데, 이 규모의 표본은 그 당시로는 실로 엄청난 것이었다. 이후 2005년 현재까지 스탠포드 성취도 검사는 성취도 검사 부문의 대명사로 자리매김하고 있다.
또 하나의 대표적인 테스트 배터리로는 아이오와 기초 기능 평가(Iowa Tests of Basic Skills, ITBS)가 있다. 1929년 아이오와 대학이 장학생 선발 목적으로 처음 개발한 이 평가는 1935년에 이르러 초ㆍ중등학교 성취도 검사로도 활용될 수 있도록 확대되었다. 이 평가 역시 당시의 다른 여느 평가들과 마찬가지로 가장 널리 읽히던 텍스트를 지문으로 사용했으나 이 평가의 한 가지 두드러진 특징은 효율성과 비용 효과를 크게 고려하여 개발되었다는 점이다. 그래서 이 평가는 선택형, 연결 짓기, OX형, 그리고 빈칸 메우기 등 채점이 금방 이루어질 수 문항들을 활용했으며, 그 결과 수험생들은 수험장을 떠나기 전에 자신의 점수를 알 수 있었다. 현재 ITBS는 모두 10 단계(Level 5-14, 해설 2)로 나뉘어 K-8학년의 읽기 성취도 평가에 활용되고 있으며, 언어 영역의 세부 평가 항목으로는 어휘력, 단어분석(형태 분석 및 음운 인식), 듣기, 읽기(이해), 문법이 있다.

전국교육발달평가 (National Assessment of Educational Progress: NAEP)
냉전시대가 한창이던 지난 1957년, 소련이 미국에 앞서 ‘스푸트니크(Sputnik)’라는 인공위성을 쏘아 올리자 미국 연방 정부의 정책가들은 미국의 미래 경쟁력에 심각한 우려를 나타내게 되었고, 이러한 우려는 미국의 초ㆍ중등교육 전반에 큰 변화를 초래하였다. 그 일환으로 교육 정책가들은 초ㆍ중등 교육의 성적을 한눈에 파악할 수 있도록 전국 단위의 평가를 계획하게 되었는데, 이것이 전국교육발달평가(NAEP)의 시초였다. 1969년 과학 교과를 처음으로 해서 시작된 이 평가는 1970년에 읽기 영역을, 그리고 1973년에는 쓰기 영역을 추가하였으며, 2005년 현재 모두 11개 교과 영역을 포함하고 있다. 이 평가는 전국적으로 무선 표집된 4, 8, 12학년 학생들을 대상으로 실시되는데, 과목에 따라 실시 주기가 다르고 학년에 따라 평가에 포함되는 과목 또한 다르다.
NAEP가 평가하고자 하는 것은 크게 두 가지이다. 첫째는 학생들의 학업 성취 수준이 어떻게 변해 왔는지를 장기간에 걸쳐 추적하는 것이며, 둘째는 지금 현재 학생들의 성취 수준을 현재의 교육 목표에 비추어 평가하는 것이다. 이 두 목표를 동시에 충족시키기 위해 NAEP는 크게 두 부분으로 구성된다. 즉, 첫 번째 언급한 목표를 성취하기 위해 이 평가의 첫 번째 부분은 이 평가가 처음 실시되었을 때의 평가 문항들을 그대로 유지하고 있다. 반면 두 번째 목표를 성취하기 위해 이 평가의 두 번째 부분은 당대의 교육적 요구에 맞춰 정기적으로 개정된다 (Salinger, 2002).
NAEP 읽기 시험 시간은 모두 50분이며, 휴식 없이 50분간 시험을 치르는 방식과 25분씩 두 번에 나누어 치르는 방식이 있다 (4학년의 경우 후자만 해당). 문제는 4지 선다형 문제와 주관식 서술형 문제로 구성되는데, 이 중 절반 이상의 문제가 후자에 해당한다. 주관식 서술형 문제는 다시 한두 문장으로 비교적 짧게 답하는 문제와 한 문단 혹은 한 편의 완전한 글을 답으로 요구하는 문제로 나뉜다. 시험에 사용되는 지문은 크게 문학적인 글과 정보 전달을 위한 글로 나뉘며, 지문 길이는 4학년의 경우 250-800 단어, 8학년의 경우 400-1,000단어, 그리고 12학년의 경우 500-1,500 단어 수준이다. 따라서 8학년과 12학년의 경우 대개 50분간의 시험 동안 두 편 정도의 지문과 그에 달린 문제들을 풀게 된다.
아래에 제시된 예는 4학년 읽기 평가의 한 부분이다. 제시된 예에서 학생들은 짧은 한 편의 문학적인 글을 읽고 이와 관련된 11개의 문제(4지 선다형 6문항과 주관식 서술형 5문항)를 풀어야 한다. 지면 관계상 지문의 일부와 주관식 문제만 소개하면 다음과 같다.

-------------------------------------------------------------
배고픈 거미와 거북
거미와 거북은 서로 다른 동네에 살고 있었습니다. 그런데 하루는 거북이 거미가 사는 동네를 여행하다 거미의 집에 초대를 받았습니다. 비록 거미가 음식에 욕심이 많기로 온동네에 소문이 나 있었지만, 이 배고픈 거북은 그래도 거미가 맛있는 음식으로 손님인 자신을 잘 대접해 주리라 믿었습니다. 그러나 거미는 자기 입맛에만 맞는 음식만 잔뜩 준비해 놓고서는 동네 사람들에게 잘 보이기 위해 마치 자기가 거북을 잘 대접하고 있는 것처럼 행동을 했습니다. (후략)


문제 2. “화내지 말고 복수하라.”라는 말이 있습니다. 이 말은 이 이야기에 어떻게 적용될 수 있을까요?
문제 4. 거북이 거미의 집에서 보인 행동을 보고 여러분은 거북이 어떻다고 생각을 하게 되었나요?
문제 6. 이 이야기에 나오는 거미와 거북에 대해 생각해 봅시다. 영화나 책을 통해 여러분이 알고 있는 인물 중에서 이 이야기 속의 거미나 거북과 닮았다고 생각하는 인물이 있으면 어떤 면에서 그런지 설명해 보세요.
문제 8. 여러분은 거북과 거미 중 누가 더 좋은 친구를 사귈 수 있다고 생각하나요? 왜 그런지 설명해 보세요.
문제 10. “거북은 거미가 한 것과 똑같은 방식으로 거미에게 복수했어야 한다.” 여러분은 이 말에 동의하나요? 동의한다면 왜 동의하는지, 동의하지 않는다면 또 왜 동의하지 않는지 설명해 보세요.

-------------------------------------------------------------

이 주관식 문항들에 대한 채점은 2, 4, 8, 10번 문항의 경우 2단계-인정(acceptable)과 불가(unacceptable)-로, 그리고 6번의 경우는 4단계-해박(extensive), 기본(essential), 부분(partial), 불가(unsatisfactory)-로 나뉜다. 이 시험을 주관하는 국가평가운영위원회(National Assessment Governing Board, 2005)는 이 각각의 문항에 대해 구체적인 채점 기준을 제시하고 있다. 가령 4번 문항의 경우 다음과 같은 기준이 제시되어 있다.

-------------------------------------------------------------
채점 기준
인정(Acceptable)
ㆍ아래의 예와 같이 기본적으로 거북의 인물됨이나 형편을 형용하는 말들은 답으로 인정할 수 있다.
- 수동적인, 참을성 있는, 예의 바른, 올곧은, 순종적인, 현명한, 배고픈, 잘 속는, 늘 최선을 다하는
불가(Unacceptable)
ㆍ아래와 같은 답은 불가하다.
- 발을 씻은, 지저분한
ㆍ아래와 같은 답은 보다 구체적인 설명이 뒷받침 되지 않을 경우 불가로 판정한다.
- 친절한(nice), 호의적인(friendly)

-------------------------------------------------------------

올해(2005년) 1월부터 4월에 걸쳐 4학년, 8학년, 12학년(전국 17,600여 개 표본 학교)을 대상으로 실시된 읽기 영역 NAEP에는 전국적으로 4학년생 165,000명, 8학년생 159,000명, 그리고 12학년생 12,000명이 참여했다. 4학년과 8학년의 경우 그 결과는 이미 미국 교육 통계 센터(National Center for Education Statistics) 웹사이트에 게시되어 있으며, 12학년 결과는 내년 봄에 발표될 예정이다.
아래에 제시된 그래프는 텍사스 주에서 올해 NAEP에 참여한 4학년 학생들의 읽기 평가 결과를 보여준다. 읽기 평가 결과는 0점에서 500점까지 점수로 표시되며, 크게 네 집단-기초 이하(below basic, 207점 이하), 기초(basic, 208~237점), 우수(Proficient, 238-267점), 최우수(advanced, 268점 이상)-으로 구분된다. 올해 텍사스 주 평균은 219점으로 전국 평균인 217점에 비해 2점이 높았으나 이는 통계적으로 유의미하지 않은 것으로 나타났다. 또 텍사스 지역 4학년 학생들의 읽기 평가 평균(219점)은 지난 2003년(215점), 1992년(213점)에 비해서도 조금 높은 것으로 나타났다.

표준화 평가와 고부담 평가 (High-stakes assessment)
어메리칸 헤리티지 (American Heritage) 사전의 풀이에 따르면 ‘stakes’란 말은 원래 스포츠 혹은 도박에 걸린 판돈을 가리킨다. 따라서 ‘High-stakes assessment’를 말 그대로 풀이하자면 ‘판돈이 크게 걸린 평가’ 정도가 되겠지만, 이를 의역하여 여기서는 ‘고부담 평가’라 하였다. 결국 단 한 번 실시한 평가의 결과가 입학자 선발, 졸업 심사, 자격증 수여, 교사의 급여, 학교 재정 지원 등 중요한 교육적 판단의 근거로 작용할 때 이런 평가를 두고 고부담 평가라 한다. 고부담 평가는 대부분의 경우 평가 실시 이전 단계서부터 평가자와 피평가자 모두 그 부담이 무엇인지 인지하게 되지만 꼭 그렇지 않은 경우도 있다. 가령 어떤 한 평가가 아무런 중요한 교육적 판단을 염두에 두고 실시되지 않았음에도 불구하고 나중에 그 결과를 공개하라는 여론의 압박의 받게 되면서 교사, 학교, 그리고 교육 행정가들에게 큰 부담으로 작용하는 경우도 있을 수 있기 때문이다(International Reading Association, 1999).
그렇다면 표준화 평가와 고부담 평가는 어떤 관련이 있는가? 우선 모든 표준화 평가가 다 고부담 평가인 것은 아니다. 한 예로, 한국의 경우 지능(IQ) 검사는 가장 대표적인 표준화 평가 중 하나이지만 이 결과는 단지 교사들의 참고 자료일 뿐 중요한 교육적 결정에 반영되지 않는다. 또 모든 고부담 평가가 다 표준화된 평가 방식을 따르는 것도 아니다. 대학원 입학(졸업) 구술 시험이나 입사 면접 시험의 예처럼, 시험을 치르는 입장에서는 무척 부담이 크지만 그 이 시험이 꼭 표준화된 평가 방식을 따르지 않는 경우도 있을 수 있다. 그러나 평가해야 할 대상이 많아지고 평가 결과가 가져올 부담 때문에 평가자들이 최대한 채점의 객관성을 유지하려고 할 때 흔히 표준화된 고부담 평가가 실시된다. 이후의 논의는 이와 같은 표준화된 고부담 평가(이하 고부담 평가)에 관한 것이다.
지난 2001년 현 부시 정권이 ‘아무도 뒤쳐지지 않게(No Child Left Behind, NCLB)’라는 이름의 교육 관련 법안을 통과시킨 이후, 미국의 교육계는 이 법안의 적절성을 둘러싸고 역사상 그 어느 때보다도 큰 내홍을 겪고 있다. 이 논란의 핵심은 과연 평가에 더 큰 부담을 지움으로써 교육의 질이 높아질 것이라고 기대할 수 있는가 하는 점이다. 이에 대한 비판은 다양한 측면에서 이루어지고 있는데, 이는 다음 절에서 다루기로 하고 여기서는 우선 현재 이 법안에 따라 실시되고 있는 읽기 평가의 한 예를 잠깐 소개하고자 한다.
아래에 제시된 예는 지난 2004년 4월 실시된 3학년 텍사스 지식 기능 평가(Texas Assessment of Knowledge and Skills, TAKS) 읽기 영역 시험의 일부이다. 텍사스 지식 기능 평가는 NCLB 법에 따라 텍사스 전역 초ㆍ중등학교 학생들의 학업 성취도를 평가하기 위해 텍사스 주 교육과정(Texas Essential Knowledge and Skills, TEKS)을 토대로 하여 만들어진 평가를 일컫는 이름이다(해설 3). 이 평가는 학생들이 3학년 때부터 11학년에 이를 때까지 여러 교과 영역에 걸쳐 반복 실시된다. 읽기 영역의 경우 3학년에서부터 9학년 때까지 매년 한 차례씩 시험이 실시되며, 10~11학년 단계에서는 영어과(English Language Arts)의 일부로 치러진다(해설 4).
아래에 소개한 3학년 읽기 영역 평가는 모두 3개의 지문과 36개의 문항(모두 4지 선다형 문항임)으로 구성되어 있는데, 이 중 이 시험의 두 번째 지문 일부와 이 지문에 달린 열 문항의 문제 부분만을 우리말로 번역해 보았다.

--------------------------------------------------------------
동물과 곤충이 사용하는 도구들
1. 여러분은 개미의 쇼핑백을 본 적이 있습니까? 코끼리의 등긁이는요? 과학자들은 일부 동물들이 자연에서 얻은 사물
을 도구로 활용한다는 것을 알아냈습니다. 이 동물들은 이러한 도구로 여러 가지 일을 할 수가 있습니다.

식사 시간 도우미
2. 딱따구리(정확한 명칭은 아님)는 나무껍질 사이에 숨어사는 벌레를 먹고 사는 새입니다. 그런데 이 새는 조그만 나뭇가지나 선인장 가시를 이용해서 벌레를 잡습니다. 벌레를 잡을 때 이 새는 부리로 나뭇가지나 가시를 문 다음, 이것으로 껍질 속에 숨어 있는 벌레를 밀어내어 밖으로 밀려 나온 벌레를 잡아먹습니다.
(중략)
9. 불과 얼마 전까지만 해도 과학자들은 오직 사람만이 도구를 사용할 수 있다고 생각했습니다. 그러나 이제 우리는 몇몇 동물들 또한 도구를 사용할 수 있다는 것을 압니다. 앞으로도 과학자들은 동물들이 도구를 사용하는 또다른 놀라운 방법들을 발견해내기를 기대하고 있습니다.


문제 14. 아래 도식을 보고 빈 칸에 들어갈 알맞은 말을 고르시오.
문제 15. 8문단에서 밑줄 친 ‘damp(축축한)’란 말 대신 쓸 수 있는 낱말은?
문제 16. 3문단과 4문단에서 주로 설명하고 있는 것은?
문제 17. 독자들이 이 글을 읽고 ‘앞으로 동물들이 도구를 사용하는 더 많은 예를 발견할 수 있을 것이다’라고 말할 수 있는 이유는?
문제 18. 딱따구리가 나뭇가지나 가시를 사용하는 이유는?
문제 19. 이 글의 전체 내용을 가장 잘 요약한 문장은?
문제 20. ‘식사 시간 도우미’ 문단에서 다루고 있는 중심 내용은?
문제 21. 개미들이 나뭇잎 위에 먹이를 올리는 이유는?
문제 22. 윗 글 중에서 해달이 먹이를 먹기 위해 도구를 사용하는 것에 대해 설명하고 있는 문장은?
문제 23. 글쓴이가 이 글을 쓴 주된 목적은?
--------------------------------------------------------------

참고로 위에서 소개되지 않은 두 편의 지문 중 한 편은 ‘크레타와 고양이’라는 제목의 짧은 동화이며, 다른 한 편은 ‘화석 찾기’라는 제목의 생활문이다. 텍사스 교육국(Texas Education Agency, 2004)은 이 읽기 평가의 바탕이 된 교육 목표(성취 수준)를 크게 네 가지로 제시하였다.


첫째, 학생들은 다양한 글을 읽고 그 글의 기본적인 내용을 이해할 수 있어야 한다.
둘째, 학생들은 문학적 지식을 문학적 글 읽기에 적용할 수 있어야 한다.
셋째, 학생들은 글을 분석할 때 다양한 글 읽기 전략을 활용할 수 있어야 한다.
넷째, 학생들은 비판적인 사고로 글을 읽을 수 있어야 한다.

목표 진술이 이처럼 일반적인 것은 이 교육 목표가 단지 3학년 읽기 수업에만 적용되는 것이 아니라 3학년에서부터 9학년에 이르기까지 읽기 교육 전반의 기본 방향을 제시하고 있는 것이기 때문이다. 따라서 평가의 난이도는 학년에 따라 요구되는 사고의 수준을 달리함으로써 조절된다. 가령, 3학년 평가에서는 글 속에 제시된 사실적인 정보를 확인하거나 국지적인 수준에서 추론하는 능력이 주된 평가 내용인 반면, 고학년으로 올라갈수록 글 전체 내용을 바탕으로 한 추론과 비판 능력이 평가의 핵심이 된다.

고부담 평가에 대한 비판
지난 역사가 보여주듯, 미국의 공교육 정책가들은 학생들의 학업 성취 수준이 위기라고 판단될 때마다 고부담 평가를 통해 문제를 해결하려 해 왔다(RAND Reading Study Group, 2002). 실제로 고부담 평가가 실시된 주에서는 학생들의 성적이 향상되는 결과를 보이기도 하였다. 이런 결과를 두고 혹자는 고부담 평가가 교사들을 긴장시키고 교직 사회에 바람직한 경쟁을 유발함으로써 결국 학생들의 실력 또한 향상되었다고 해석한다. 그러나 이런 결과는 또 다른 관점에서, 즉 교사들이 정말로 가르쳐야 할 것들은 접어 두고 오직 시험만 가르쳤기 때문에 생긴 결과라고 해석될 가능성도 있다(International Reading Association, 1999). 특히 평가 결과가 가져 올 파장이 커지면 커질수록 그럴 가능성 또한 높다.
평가의 타당도가 높다면, 즉 어떤 한 평가가 가르쳐야 할 내용을 제대로만 평가한다면 교사가 평가에 초점을 맞춰 교육을 한다 하더라도 결과적으로 가르칠 것을 제대로 가르치는 것이 아닌가 하는 논의도 있을 수 있다. 그러나 평가 결과의 부담 정도와 평가의 타당도는 비례 관계라기보다는 반비례 관계에 가깝다는 점에서 이런 논의는 타당치 않다. 앞서 제시한 두 종류의 읽기 평가 (NAEP와 TAKS)의 예를 통해 이런 역상관 관계를 쉽게 살펴볼 수 있다. 우선 NAEP의 예를 보면, 이 평가의 기본 목적은 학생들의 학업 발달 수준을 전국 표본을 통해 점검하는 것이므로 평가 결과가 피평가자, 교사, 그리고 학교에 미치는 부담이 매우 적다. 따라서 평가를 출제하는 입장에서도 다양한 평가 방식(선다형, 주관식 단답형, 주관식 서술형 등)을 통해 읽기 능력을 다면적으로 평가할 수가 있으며, 피평가자 입장에서도 평가 결과에 온 촉각을 곤두세울 필요가 없다. 반면, 앞서 소개한 TAKS나 한국의 수능 시험의 경우는 어떠한가? 만약 이들 시험에 읽기 능력을 보다 타당하게 평가하겠다며 선다형 문제 외에 서술형 문제를 삽입한다고 생각해 보자. 채점 결과의 객관성을 둘러싸고 벌어질 혼란은 불을 보듯 뻔한 일이다. 이처럼 평가의 부담이 커지면 커질수록 평가자는 그 평가의 타당도보다는 객관도에 더 중점을 두게 되며, 그 결과 고부담 평가는 표준화된 선다형 평가 방식을 더 선호하게 되는 것이다.
평가 결과가 교사에게도 큰 부담으로 작용하면서 교사의 관심 밖으로 밀려나는 학생들이 늘고 있다는 점도 고부담 평가가 야기한 큰 문제 중 하나이다. 진급에 누락되는 학생의 비율이 곧 교사와 학교의 책임을 평가하는 중요한 잣대로 작용하자, 교사들은 자기가 맡고 있는 반에서 진급에 누락되는 학생들의 수를 최소화하기 위해 합격과 불합격의 경계 주변에 있는 학생들에게 주로 관심을 쏟게 되었다. 반면 나머지 학생들, 즉 교사의 노력과 시간 투자에도 불구하고 여전히 합격 가능성이 낮은 학생들, 또 교사가 그리 큰 관심을 쏟지 않아도 평가에 무난히 합격하리라 여겨지는 학생들은 앞서 말한 경계 주변의 학생들에 밀려 교사의 관심으로부터 멀어지게 되었다.
고부담 평가를 둘러싼 또다른 비판은 평가가 학교에서 다루어야 할 교육의 내용을 획일화시키고 있다는 점이다. 지역적ㆍ인종적ㆍ계층적 특성에 따라 지금껏 지방분권적 교육을 중시해 왔던 기존의 학교들은 이제 주 단위의 획일화된 평가가 실시됨에 따라 이 평가가 요구하는 ‘공식적 지식’(Apple, 1993,1996)외에 다른 것들을 더 이상 교실에서 다루기 힘든 상황에 처하게 되었다. 위스콘신 대학의 석좌교수인 마이클 애플(2001)은 이 공식적 지식의 핵심을 백인 중심의 서구적 가치, 즉 애국주의, 정직, 도덕적 인성, 기업가 정신 등이라고 규정하고,이런 여론을 주도하는 세력의 예로 신자유주의자, 신보수주의자, 종교적 근본주의자, 그리고 전문경영자 등을 거론하였다. 또 그는 이 세력이 자신들의 요구를 성취하기 위한 방법으로 바우처 제도(해설 5)를 통한 교육 시장화, 국가 주도의 교육과정 운영, 국가(또는 주 정부) 주도의 고부담 평가 실시 등을 요구하고 있다고 지적하였다. 결국 고부담 평가를 둘러싼 논쟁은 단순히 고부담 평가의 결과를 통해 교사와 학교의 책임을 묻는 것이 타당한가 하는 교육적 수준의 논의를 넘어, 교육 부문을 포함하여 미국 사회 전반에 걸쳐 오랜 기간에 걸쳐 다양한 형태로 표출되고 있는 보수주의와 진보주의 논쟁의 연장선상에서 이해해야 할 필요가 있다(Smargorinsky, Lakly, and Johnson, 2002).

맺으며
이 글에서는 미국의 예를 통해 표준화 평가의 발전 과정을 살펴보고 읽기 교육에서 표준화 평가는 어디에 어떤 식으로 자리매김해야 하는지 고민해 보고자 했다. 그러나 제한된 지면에 너무 많은 것을 담으려 하다 보니 어느 하나 깊이 있게 논의되지 못한 감이 있다. 필요에 따라 이 각각의 내용은 다른 지면을 통해 독립된 주제로 상술될 수 있을 것이다.
표준화된 교육과정과 표준화된 교과서, 그리고 표준화된 평가가 산업 사회로의 발달에 기여한 공로는 분명 존중되어야 할 필요가 있다. 그러나 우리는 이미 표준화보다는 지방화, 분권화, 개별화가 더 중요한 가치로 존중 받는 탈산업화 시대를 살고 있다. 언어교육에서도 하나의 문식성(literacy)보다는 다문식성(multiliteracies, 해설 6)이 그 논의의 핵심이 되고 있다. 그런 점에서 기존의 표준화 평가가 누리던 권위는 이제 다소 제한되고 약화되어야 할 필요가 있다.▣


-------------------------------------------------------------------------------------------------------
해설 1. 컬럼비아 대학에서 손다이크에게 수학하며 읽기 평가에 관심을 갖기 시작한 그래이는 나중에 미국 초등학교 읽기 교재의 대명사격인 ‘Dick and Jane’ 시리즈를 저술하고 국제독서학회(International Reading Association)를 창립하는 등 미국 읽기 교육사에 커다란 족적을 남겼다.
해설 2. 왜 이 평가의 첫 수준을 5단계(level 5)라고 이름 붙였는지에 대한 정확한 정보는 얻지 못했다. 다만, 학생들이 정규 교육을 5세(Kindergarten)에 시작하는 만큼 나이를 수준의 개념과 연관지어 사용했으리라 추측한다.
해설 3. 기존 평가 자료는 텍사스 교육국 홈페이지를 통해 내려받을 수 있다.
(http://www.tea.state.tx.us/student.assessment/resources/release/taks/index.html)
해설 4. 이 밖에 수학 교과는 3학년에서부터 11학년 때까지, 쓰기의 경우는 4학년과 7학년 때, 영어(English Language Arts)는 10학년 및 11학년 때, 과학의 경우 5, 10, 11학년 때, 마지막으로 사회과의 경우 8, 10, 11학년 때 시험이 실시된다.
해설 5. 바우처 (Voucher) 제도란 애초 경제 정책 분야에서 온 말로, 독점적 서비스 제공에 따른 비효율성을 줄이기 위해 정부가 수혜자에게 특정 재화나 서비스를 여러 공급자 가운데서 선택할 수 있도록 하는 제도를 말한다. 바우처 제도를 통해 가난한 사람들이 공립 학교를 탈출할 수 있는 기회를 얻게 된다고 표면적으로 말하지만, 이 제도의 궁극적인 목적은 공립 학교를 떠나 사립 학교나 종교계 학교로 가고자 하는 백인들을 늘리는 것, 그 결과 백인 학부모들이 공립 학교를 지원하기 위한 세금을 내지 않아도 되는 사회적 조건을 창출하는 것이라고 애플은 지적하고 있다.
해설 6. 다문식성이란 말은 뉴런던 그룹(The New London Group, 1996)이 처음 쓰기 시작한 말로, 언어적ㆍ문화적 다양성이 고려된 맥락 중심의 언어 사용 능력과 미디어의 발달에 따라 문자 이외의 언어(기호)를 활용해 의미를 표현ㆍ이해할 수 있는 능력을 의미한다. 이 그룹에 속한 대표적인 학자로는 카즈덴(Courtney Cazden, 하버드대), 지(James Gee,위스콘신대), 크레스(Gunther Kress, 런던대) 등이 있다.



참고 문헌
Apple, M. W. (1993). Official knowledge: Democratic education in a conservative age. New York: Routledge.
Apple, M. W. (1996). Cultural politics and education. New York: Teachers College Press.
Apple, N. W. (2001). Educating the "right" way: Market, standards, god, and inequility. New York: Routledge.
International Reading Association (1999). High-stakes assessment in reading: A position statement. The reading teacher, 53, 257-263.
Johnston, P. H. (1984). Assessment in reading. In P. D. Pearson, R. Barr, M. L. Kamil, & P. Mosenthal (Eds.), Handbook of reading research (pp. 147-182). New York: Longman.
McLuhan, M. (1962). Gutenberg galaxy: The making of typographic man. Toronto: University of Toronto Press.
The New London Group. (1996). A pedagogy of multiliteracies: Designing social futures. Harvard Educational Review, 66, 60-92.
Pearson, P. D. (2001). Reading in the twentieth century (CIERA article# 01-08). Ann Arbor, Mich: College of Education, University of Michigan.
Rand Reading Study Group (2002). Reading for understanding: Toward an R&D program in reading comprehension. Santa Monica, CA:RAND.
Sacks, P. (1999). Standardized minds: The high price of America's testing culture and what we can do to change it. Cambridge, MA: Perseus books.
Salinger, T. (2002). National Assessment of Educational Progress. In B. J. Guzzetti (Ed.), Literacy in America (pp. 392-395). Santa Barbara, CA: ABC Clio.
Smagorinsky, P., Lakly, A., & Johnson, T. S. (2002). Acquiescence, accommodation, and resistance in learning to teach within a prescribed curriculum. English education, 34(3), 187-213.
Smith, N. B. (2002). American reading instruction. Newark, DE: International reading association.
Texas Education Agency (2004). TAKS Information booklet: Reading grade 3. Austin, TX:TEA.
Thorndike, E. L. (1910). Handwriting. Teachers College Record, 11, 83-175.
U.S. Department of Education. (1998). Digest of education statistics: 1998. Washington, DC: U.S. Government Printing Office.
U.S. Office of Technology Assessment. (1992). Testing in American schools: Asking the right questions (OTA Publication No. OTA-SET-519). Washington, DC: U.S. Government Printing Office.
Valentine, J. A. (1987). The college board and the school curriculum: A history of the college board's influence on the substance and standards of American education, 1900-1980. New York: College Entrance Examination Board.
Venezky, R. L. (1984). The history of reading research. In P. D. Pearson, R. Barr, M. L. Kamil, & P. Mosenthal (Eds.), Handbook of reading research (pp. 3-38). New York: Longman.
Wigdor, A. K., & Garner, W. R. (1982). Ability testing: Uses, consequences, and controversies. Washington, D.C.: National Academy Press.



댓글 없음: