2/19/2008

읽기 평가, 왜 여전히 문제인가?

이 글은 '교육진흥' 2006년 9월호(중앙교육진흥연구소)에 게재된 것입니다.


읽기 평가, 왜 여전히 문제인가?
옥현진(University of Texas at Austin)

부정적인 뉘앙스의 제목이 암시하듯 이 글은 학교 교육에서의 읽기 평가가 여전히 문제 상태라는 현실 인식에서부터 출발하여 그 원인을 분석해 보는 데 목적을 두고 써졌다. 또한 이 글은 읽기 교육의 전문가보다는 학부모와 교사들을 주된 독자로 상정하고 이에 초점을 맞추어 써졌는데, 후술되겠지만 그 이유는 읽기 평가의 문제들이 단지 학교 내에서의 노력만으로는 해결되기 힘든 성질의 것이라는 판단 때문이다. 아울러 독서 평가 대신 읽기 평가라는 용어를 쓰는 것은 독서라는 용어가 읽기의 대상을 지나치게 책으로만 축소시키는 부작용이 있기 때문이란 점도 미리 밝혀 둔다.

바람직한 읽기 평가는 어떤 모습인가?
필자가 현재 공부하고 있는 대학은 주립대학이라 그런지 주말이면 일반 시민들이 자녀들과 함께 도서관에 와서 책을 읽고 있는 모습을 종종 발견하게 된다. 특히 필자가 주로 찾는 교육 관련 서적과 아동 서적들은 도서관 내 같은 층에 나란히 비치되어 있기 때문에 필자는 부모와 자녀들이 함께 책을 읽으며, 또 읽을 책을 함께 고르며 소곤소곤 나누는 대화도 심심찮게 엿들을 수 있다. 그런 모습을 볼 때면 필자는 ‘과연 이 외에 더 이상 바람직한 읽기 지도와 읽기 평가 방법이 있을까’ 하는 생각을 저절로 하게 된다. 필자가 이런 생각을 하게 되는 데는 여러 측면에서 그 이유가 있지만, 이 글의 초점이 평가에 맞춰져 있는 만큼 평가라는 측면에서 볼 때 그 이유는 크게 다음 두 가지로 요약될 수 있다.


우선 부모는 이런 읽기 지도 활동의 과정과 결과를 통해 읽기 지도 전반을 점검해 볼 수 있다. 예컨대, 자녀에게 지나치게 쉽거나 어려운 책을 읽히고 있는 것은 아닌지, 자녀와 읽기 활동을 하는 시간과 장소는 언제 어디가 가장 좋으며 또 한 번에 얼마 동안이나 실시하는 것이 좋은지, 책을 다 읽은 다음 자녀와 대화를 나눌 때는 주로 무엇에 대해 어떤 방식으로 대화를 나눌 것인지, 만약 수준이 서로 다른 둘 이상의 자녀와 동시에 이런 활동을 할 때는 어떤 점에 유의해야 할 것인지 등 전반적인 측면에서 자신들의 지도 활동을 점검해 볼 수가 있다. 즉 지도와 지도에 대한 평가가 동시에 이루어지는 것이다. 이처럼 읽기 지도의 전반적인 과정에 대한 평가, 즉 읽기 프로그램에 대한 평가는 아동(학습자)에 대한 평가와 더불어 평가의 중요한 한 축을 이룬다.

부모와 자녀 사이의 읽기 활동은 또한 자녀의 읽기 능력을 올바르게 평가할 수 있는 최적의 방법이라고 할 수 있다. 아동에 대한 평가는 크게 진단 평가와 형성 평가로 구분해 볼 수 있는데, 우선 진단 평가란 말 그대로 아동의 현재 수준을 정확하게 진단하기 위한 평가를 뜻한다. 긴 여행을 위해 출발 전에 차량의 현재 상태를 꼼꼼히 점검하는 것처럼, 아동과의 읽기 활동을 시작하기에 앞서 아동의 현재 상태를 면밀하게 점검하는 것이 곧 진단 평가이다. 이 평가의 내용에는 아동의 어휘 수준, 한 편의 글이나 책을 읽고 도달할 수 있는 사고의 수준, 읽기 활동에 몰입할 수 있는 시간의 정도, 책읽기에 대한 평소 태도, 특별히 관심을 많이 보이거나 잘 알고 있는 장르나 내용 분야 (content area) 등 아동의 읽기 능력을 구성하고 있는 다양한 요인들이 포함될 수 있으며, 이러한 진단이 보다 정확하게 이루어지면질수록 그 읽기 지도 계획은 보다 더 잘 설계될 수 있으며 결론적으로 실패로 끝날 가능성도 그만큼 줄어들게 된다.

한편 형성 평가란 읽기 활동이 진행되면서 아동의 읽기 능력 중 어떤 측면이 얼마나 발달하고 있는지 평가하는 것을 말한다. 가령 처음에 비해 줄거리를 더 짜임새 있게 잘 요약한다든가, 등장인물들에 대한 분석이 더 세련되어졌다든가, 혹은 한 번에 책읽기에 몰입하는 시간이 길어졌다든가 하는 것이 다 발달의 예가 될 수 있으며 이런 발달을 지속적, 누적적으로 점검하고 기록하는 것이 곧 발달 평가이다. 이러한 평가는 부모가 매일 쓰는 교육 일기를 통해 이루어질 수도 있고 평가하려고 하는 세부 항목을 체크리스트 형태로 만들어 주기적으로 체크할 수도 있으며 아동이 읽기 활동의 결과로 만들어 낸 자료 (예를 들어 독서 일기)에 점수를 매겨 평가할 수도 있다. 읽은 글의 내용을 아동이 얼마나 이해하고 있는지를 알고 싶다면 미리 글 내용과 관련된 문제를 몇 개 만든 다음 이 문제들을 가지고 아동과 대화하며 이해 수준을 평가할 수도 있고, 아예 각 문제에 대한 답을 글로 쓰도록 해서 평가할 수도 있을 것이다. 이러한 평가의 결과는 부모의 지도 계획에 다시 피드백 되어 앞으로의 지도 계획을 수정하고 보완하는 데 큰 도움을 주게 된다.

이상의 내용을 요약하자면 우선 바람직한 평가는 다면적이어야 한다. 인간의 학습 과정을 그 주제로 삼는 학습심리학에서는 인간의 학습에 가장 기본이 되는 요소로 인지(cognition), 정서(emotion), 그리고 동기(movitation)를 꼽는다. 이를 읽기라는 학습 상황에 접목시켜 보면, 한 아동이 글을 읽으려는 자발적인 동기를 가지고 있고 글 내용을 이해하는 데 인지적인 어려움이 없으며 글 속에 몰입 (flow, ‘몰입’은 시카고 대학의 심리학자 칙센미하이의 용어로서 인간이 어떤 한 행위에 완전히 빠져 들어서 시간의 흐름이나 자기가 처한 공간에 대해서조차 잊어버리게 되는 정서 상태를 가리킨다) 하는 경험을 자주 하게 될 때 가장 이상적인 읽기 활동이 이루어졌다고 할 수 있다. 읽기 교육이 도달하고자 하는 궁극적인 목표는 결국 모든 학생들이 이와 같은 인지, 정서, 동기 수준에 이르도록 돕는 것이라고 할 수 있을 것이다.

읽기를 이처럼 다면적으로 이해하게 되면 어떤 한 아동이 읽기와 관련해서 겪고 있는 문제 상황을 단지 인지 차원뿐만 아니라 정서, 동기 차원에서도 함께 고려해서 해결할 수 있는 장점이 있다. 이와 관련하여 최근에 많이 논의되고 있는 것이 얼리터러시(aliteracy)라는 개념이다. 일리터리시(illiteracy)가 주로 문자를 읽을 수 있는 인지적 능력의 문제로 인해 글을 읽지 못하는 상태를 가리킨다면 얼리터러시는 글을 읽을 수 있는 인지적인 능력은 충분히 있으되 자발적으로 글을 읽으려는 동기가 마련되지 않은 상태를 가리킨다. 따라서 ‘요즘 우리 아이들이 책을 너무 안 읽어’라고 하는 부모들의 걱정은 일리터러시보다는 얼리터러시라는 개념으로 더 쉽게 설명할 수가 있다.

또한 바람직한 평가는 외부로부터 주어지는 것이 아니라 내부로부터 나와야 한다. 그래야 우선 그 결과가 교육 활동 전반에 효율적으로 반영될 수 있기 때문이다. 외부에서 주어지는 평가는 아동의 상대적 수준을 비교하는 데는 도움이 될지 몰라도 그 결과를 바탕으로 무엇을 어떻게 해야 할 것인가를 계획하고 결정하는 데는 별 도움을 주지 못한다. 또한 아동의 발달 과정을 가장 가까이에서 지속적, 누적적으로 평가할 수 있는 사람도 결국은 내부에 있다.

왜 교실에선 이루어지기 힘든가?
앞서 소개한 예가 읽기 평가의 바람직한 예라고 한다면 이 예 속에 등장한 부모를 교사로, 아동을 학생으로 치환해도 그리 달라져야 할 것은 없다. 그러나 현실적으로 교실에서의 읽기 평가가 앞서 언급한 것처럼 바람직하게 이루어지고 있다고 믿고 있는 사람은 거의 없다. 왜 부모와 자녀 사이에서는 얼마든지 가능할 법한 읽기 평가가 교실에서는 이루어지기 힘든 것인가?

그 원인은 크게 두 가지 차원에서 설명이 가능할 것이다. 첫째는 평가를 실시하는 다양한 목적과 평가 방법에 대한 인식 자체가 부족한 차원이다. 이런 차원에서라면 평가에 관련된 각 주체들에게 다양한 경로를 통해 읽기 교육의 바람직한 목적과 내용, 그리고 이에 따른 평가의 다양한 목적과 방법을 소개함으로써 읽기 평가에 대한 인식 전환과 더불어 구체적인 실천 또한 촉구할 수 있을 것이다.

그러나 지난 이십여 년 동안 교육 관련 학술지나 잡지를 통해, 또 일선 학교 교사들의 경우 다양한 연수를 통해 이런 차원의 문제점을 해결하기 위한 논의는 상당한 정도 진행되어 왔다. 한 예로 필자가 고등학교 교사로 재직하던 9년 전에도 이미 학교 현장에서는 학기 초에 동일 교과의 교사들끼리 모여 학기말 성적 산출시 반영해야 할 수행평가의 비율과 구체적인 수행평가의 방법까지 미리 정해 두었을 정도였다. 수행평가를 대행해 주는 업체나 학원까지 등장했다는 암울한 신문 기사를 접한 것도 꽤 오래 전의 일이다.

따라서 굳이 이 글을 통해 지난 이십여 년 동안의 논의(가령, 바람직한 평가의 필요성이나 구체적인 예)를 반복하거나 요약하는 것은 큰 의미가 없다고 판단된다. 그렇게 한다고 해서 현실적으로 달라질 것은 별로 없기 때문이다. 문제는 다른 차원에서 발생해서 그 여파가 교실에까지 미칠 뿐이며 따라서 근본적인 해결책도 교실 밖에 존재한다.

그 차원은 곧 다양한 평가 방식의 필요성에 대해 동의하고 구체적인 실행 방법을 알고 있지만 현실의 무게 때문에 이를 제대로 실천하기 힘든 차원을 말한다. 일례로, 학기말 성적을 산출할 때 수행평가 결과를 일정 비율 이상 반드시 반영하도록 되어 있지만 상당수 일선 교사들은 학생들이 수행평가의 결과로 받을 수 있는 점수의 격차를 최소화해버리거나 (가령 27~30점, 최대 3점차), 각 점수에 해당할 학생들의 비율(가령 27점과 30점은 각각 20%, 28점과 29점은 각각 30%)을 교사들끼리 합의해서 학급 간 격차가 생기지 않도록 조정해버림으로써 학생들의 성적 차이는 결국 고전적인 지필 평가의 결과에 따라 좌우되도록 만들어버린다. 즉, 수행평가의 본질적인 의미는 사라진 채 껍질만 남은 셈이다.

필자가 갓 교사 생활을 시작했을 때 동료 교사에게 왜 굳이 그렇게까지 해야 하느냐고 물었던 적이 있었다. 답은 간단했다. 그렇게 하지 않으면 학부모, 학생, 심지어 다른 반 담임 교사들의 원성 때문에 견디기가 힘들다는 것이었다. 안타깝지만 그것이 교실의 현실이다. 소신껏 평가를 하겠다고 해서 필자가 가르치는 반 아이들의 점수만 깎아버리면 결국 필자가 가르치지 않는 다른 반 아이들의 내신 성적이 올라가는 것이다. 90%가 넘는 학생들이 ‘수’를 받도록 문제를 내야 하는 것도 그렇게 하지 않으면 ‘수’를 받은 다른 학교 학생이 고등학교, 대학에 합격할 확률이 그만큼 높아지기 때문이다. 이렇게 왜곡된 평가 관행 속에선 평가의 교육적 의미를 논할 여지가 없어진다. 애초부터 평가의 목적은 보다 나은 교육을 위한 피드백이 아니라 학생들을 한 줄로 세우는 데 있었기 때문이다.

혹자는 이런 현상을 놓고 교사의 평가 전문성 부족이나 시간 부족, 혹은 게으름을 탓하기도 한다. 물론 이런 문제점을 전적으로 부정할 수는 없으며 한시바삐 개선되어야 할 부분임에는 틀림없다. 그러나 과연 교사만 바뀐다고 해서 이렇게 왜곡된 평가 관행이 일시에 바로잡힐 수 있겠는가? 문제가 그리 간단치만은 않다.

결국은 사회 구조의 문제다
결국 근본적인 문제의 원인은 학벌에 지나치게 종속된 한국 사회의 기형적 구조에 있다. 사회가 다양화되면서 조금씩 나아지고 있다고는 하지만 여전히 한국 사회에서 학벌은 평생을 따라다니며 부와 명예를 창출하는 가장 중요한 통로로 인정받고 있다. 또 학벌은 한 개인의 성공일 뿐만 한 가문의 성공의 상징이기도 하다. 부모들이 자녀들의 학벌을 위해 자신의 삶까지도 기꺼이 희생하려는 이유가 여기에 있다.

이 학벌을 결정하는 데 가장 중요한 변수로 작용하는 것이 바로 대학수학능력시험이다. 단 한 번 실시되는 평가의 결과가 한 개인의 장래를 좌우하는 결정적인 요인으로 작용할 때 이런 평가를 두고 고부담 평가(high-stakes assessment)라고 하는데, 그런 면에서 대학수학능력시험은 전 세계 어디에 내놓아도 뒤지지 않을 고부담 평가라 해도 과언이 아니다. (어메리칸 헤리티지 사전의 풀이에 따르면 ‘stakes’란 말은 원래 스포츠 혹은 도박에 걸린 판돈을 가리킨다. 따라서 ‘high-stakes assessment’를 말 그대로 풀이하자면 ‘판돈이 크게 걸린 평가’ 정도가 되겠지만, 이를 의역하여 여기서는 ‘고부담 평가’라 하였다).

이처럼 평가 결과에 걸린 부담이 커지면 커질수록 교육의 내용과 방법은 평가에 종속될 수밖에 없다. 멀리는 초등학교 교육에서부터 가깝게는 고등학교에서의 교육이 수능의 그늘에서 좀처럼 벗어나기 힘든 이유도 여기에 있다. 수능의 내용이 곧 학교 교육 내용이며 학교에서 실시하는 평가 방법 또한 수능의 그것과 너무나 유사하다. 학생들이 고등학교 3년 동안 책 한 권을 제대로 읽지 못한 채 어디서 가져온 것인지도 모르는 조각글 읽기와 그에 달린 선다형 문제 풀기에 매달려야 하는 것도 수능이 그런 읽기 공부를 요구하기 때문이다.

혹자는 평가의 타당도가 높다면, 즉 어떤 한 평가가 가르쳐야 될 내용을 제대로만 평가한다면 평가에 초점을 맞춰 교육을 한다 하더라도 결과적으로 가르칠 것을 제대로 가르치는 것이 아닌가 하고 반문할 수 있을 것이다. 그러나 평가 결과의 부담 정도와 평가의 타당도는 비례 관계라기보다는 반비례 관계에 가깝다는 점에서 이런 논의는 타당치 않다. 만약 수능에 읽기 능력을 보다 타당하게 평가하겠다며 선다형 문제 외에 서술형 문제를 삽입한다고 생각해 보자. 채점 결과의 객관성을 둘러싸고 벌어질 혼란은 불을 보듯 뻔한 일이다. 이처럼 평가의 부담이 커지면 커질수록 평가자는 그 평가의 타당도보다는 객관도에 더 중점을 두게 되며, 그 결과 고부담 평가는 선다형 평가 방식을 선호하게 되는 것이다.

읽기 평가, 왜 여전히 문제인가?
서구의 경우를 기준으로 한다면 읽기 영역에서 표준화된 선다형 평가가 처음 개발된 이후 거의 백 년의 세월이 흘렀다. 그 동안 읽기 이론의 발달과 더불어 무엇을 평가할 것인가와 어떻게 평가할 것인가에 대한 논의가 상당한 발전을 이루면서 선다형 평가는 이러한 논의들로부터 끊임없는 공격을 받아왔다. 그러나 한국 사회에서 선다형 평가는 여전히 건재하다. 왜 평가하는가 하는 물음에 대한 답이 변하지 않았기 때문이다. 평가의 주된 목적이 한 줄 세우기에 있고 그 한 줄을 세우는 가장 공평한 방법이 일회성 선다형 평가라는 믿음이 변치 않는 한 ‘무엇’과 ‘어떻게’에 대한 논의가 끼어들 수 있는 여지는 별로 없어 보인다. 읽기 평가가 여전히 문제인 근본적인 이유가 바로 여기에 있다.


댓글 없음: