미래 학습 생태계는 시스템, 공동체, 그리고 시간을 초월해 학습자의 데이터를 관리하고 처리하는 방식을 변화시킬 것입니다. 새로운 분석 역량이 발전함에 따라 다음과 같은 방식으로 변화를 촉진할 것입니다. 학습자가 오랜 기간에 걸쳐 어떻게 발전하는지에 대한 통찰력을 증대시키고, 교수자가 가르침을 더 반응적이고 적응적으로 만들 수 있는 능력을 강화하며, 개인의 필요에 맞춘 경험과 학습 경로를 추천하는 방식입니다. 그러나 새로운 기술이 목적 없이 적용된다면 학습을 향상시키지 못할 것입니다. 현재 시스템은 종종 학습자의 성과 데이터를 과도하게 수집하면서도 이를 효과적으로 활용하지 못하고 있습니다. 또한, 학습에 필수적인 동기와 장기적 목표 같은 다른 요소들이 자주 간과되거나, 학습자에게 유용하거나 실행 가능한 피드백이 제공되지 않아 금세 잊혀지는 경우가 많습니다. 이 장은 평가 활동의 의도 분석의 중요성을 강조하면서 평가 활동을 개선하기 위한 형성적 피드백의 개혁과 기술로 지원되는 평가 시스템에서 요구되는 지원 기능에 대한 개정된 프레임워크를 제시합니다.

배경과 현재 실천의 한계

기술이 교육과 훈련을 빠르게 변화시키면서 학습 평가에 대한 선택은 교수자들에게 혼란을 주고, 프로그램 관리자들에게는 더욱 위험한 선택으로 다가오고 있습니다. 교육 및 훈련 프로그램 관리자들은 프로그램, 교실, 결과에 대한 책임 지향적인 데이터를 헤쳐 나가야 하는 상황에서 종종 난관에 봉착합니다. 안타깝게도 이러한 기록 관리는 종종 독자적인 생명력을 가지게 되어, 특정 학습 목표와 연결된 데이터가 본래의 목적을 벗어나 단순히 수집되고, 유지되고, 보고되는 자산으로 변질됩니다.

우리는 단순히 총괄적 평가(summative assessments)에 그치지 않고 형성적 평가(formative assessments)가 필요합니다. 우리는 이 기술 도구들을 더욱 효과적으로 활용하고, 분석을 선형적 또는 결절적(nodal) 방식으로 적용하도록 발전시켜야 합니다. 목표는 교육의 각 개별적인 측면을 이해함으로써 궁극적으로 학습자들에게 이전보다 훨씬 더 나은 교육을 제공할 수 있도록 하는 것입니다.

Keith Osburn, Ed.D.
Associate Superintendent, Georgia Virtual Learning
Georgia Department of Education

또한, 연구의 발전, 평가 패러다임의 변화, 학습 환경의 변화는 사실상 기존의 규칙을 다시 쓰게 만들었습니다. 하지만 교육 및 훈련 관계자들의 전문성 개발은 이러한 변화 속도를 따라가지 못했고, 그 결과 교사, 교수 설계자, 기타 교육 관계자들이 평가를 주로 총괄적이고, 정량적이며, 학습자의 성과를 단편적으로 보여주는 방식으로 시행하게 되는 경우가 많습니다.

발레리 슈트(Valerie Shute)와 매튜 벤투라(Matthew Ventura)는 이러한 상황의 결과를 다음과 같이 요약합니다.

오늘날의 교실 평가 중 많은 부분은 심층 학습이나 복잡한 역량 습득을 지원하지 못합니다. 현재의 교실 평가는 대개 특정 시점에서 학생(또는 학생 그룹)을 판단하도록 설계되어 있으며, 학생들에게 진단적 지원을 제공하거나 교사들에게 진단적 정보를 제공하지 못합니다.

종종 기술의 발전—개인화 학습 알고리즘, 새로운 전달 플랫폼, 그리고 빠르게 확장되는 선택지들—은 문제 해결 경로를 명확히 하기보다는 오히려 혼란스럽게 만듭니다. 일부 학습 기술의 참신함이나 복잡성은 설계 결함을 가리기도 합니다. 그러나 연구 기반 원칙에 따라 학습 과학을 적용하면 이를 해결할 수 있습니다. 학습이 가상현실에서 이루어지든 교실 세미나에서 이루어지든, 학습 과학의 역사, 원칙, 과정은 학습 생태계를 설계하고 개발하는 데 있어 귀중한 도구 상자가 됩니다.

평가를 위한 전제 조건: 기본 요소들

존 해티(John Hattie)는 Visible Learning에서 학습에 있어 “필수적인 요소”로 두 가지를 언급합니다: (1) 학습자에게 도전 과제를 제시하는 것과 (2) 피드백입니다. 이 두 요소는 평가의 기초이자 최소 요구 조건으로도 작용합니다. 도전 과제가 부족하면 학습자의 뇌에서 신경 연결이 강화되거나 변화하지 않으며, 유용한 피드백이 없다면 학습자는 자신의 수행을 현재 또는 미래의 학습 목표와 연결할 수 없는 상태에서 맹목적으로 행동하게 됩니다.

새로운 학습 분석 기술은 실시간으로 수행을 모니터링하고 최신 대시보드를 이해관계자들에게 제공할 수 있도록 하며, 이로 인해 상당한 진전을 이루었습니다. 이는 우리 조부모 시대의 평가 방식과는 크게 다른 모습입니다. 20세기 대부분 동안 “공장 모델”의 교육이 지배적이었고, 그에 따라 가르침은 지식 전달 과정으로 간주되었으며, 학습자는 단순히 이를 받아들이는 대상으로 여겨졌습니다. 목표는 모든 사람의 머릿속을 지식으로 채우고 졸업생이라는 균일한 결과물을 사회에 제공하는 것이었습니다. 교사들은 가르친 후 평가를 진행하고, 또다시 가르친 후 평가를 반복하며 수업이 끝날 때까지 이러한 과정을 이어갔습니다. 평가란 이와 같은 선형적 과정에서 간헐적으로 발생하는 일종의 부수적 사건으로 여겨졌습니다.

오랜 시간 동안 평가 설계는 큰 중요성을 갖지 않았습니다. 평가는 교수와 학습의 주요 초점이 아닌 부가적인 행사로 간주되었기 때문입니다. 종이 시험지나 에세이 같은 형식의 활동이 주를 이루었고, 예술, 연설, 체육처럼 성과 중심의 특별한 환경을 제외하고는 다른 대안이 많지 않았습니다. 이 시대에는 학생들의 과제에 빨간 잉크로 표시하거나, 학문적 또는 사고 능력이 부족하다고 가혹하게 말하는 것이 자연스러웠으며, 이는 일부 학습자들에게 무기력감을 초래하기도 했습니다. 반대로, 뛰어난 성적을 낸 학생들에게 그들의 능력과 지성을 칭찬하는 것도 흔했지만, 이는 성장 마인드셋을 약화시키고 학습에 필요한 노력을 과소평가하게 만들었습니다.

오늘날의 교실, 그 위치가 회사든, 군사 기지든, 컴퓨터 화면 안이든, 평가 방식과 태도는 과거와 적어도 일부는 다르게 변화하고 있습니다. 많은 곳에서 평가의 최신 기술은 (조심스럽게 표현하자면) 과거보다 더 학습자 중심적이라고 볼 수 있습니다. 이러한 변화는 구성주의 학습 이론과 활동 학습 및 학습자 중심 설계와 같은 방법론의 영향을 받은 결과입니다. 또한, 최근 몇 십 년 동안 주목받은 다양한 평가 방식들—진정성 평가(authentic assessment), 수행 평가(performance assessment), 대안 평가(alternative assessment), 형성 평가(formative assessment), 포트폴리오 평가(portfolio assessment), 임베디드 형성 평가(embedded formative assessment), 종단 평가(longitudinal assessment), 학습을 위한 평가(assessment for learning)—로 인해 개선된 관행과 태도가 자리 잡았습니다.

그렇다면 이 새로운 시대에서 우리는 항상 평가를 해야 할까요? 학습자에게 최선의 방법은 무엇일까요? 지금과 가까운 미래에도 어떤 형태의 학생 작업과 성과는 다른 것보다 우선시될 것입니다. 특정 평가의 중요성은 사회적 맥락에서 구성되기 때문입니다. 예를 들어, 성인 교육에서는 직장 업무와 유사한 과제를 반영하는 평가가 더 큰 가치를 가지며 학습 목표를 더욱 효과적으로 전달할 수 있습니다. 모든 학습자의 행동이나 산출물이 학습 목표, 프로그램 목표, 또는 학습 결과에 동일한 가치를 갖는 것은 아니라는 점을 인식하는 것이 중요합니다. 따라서 과제는 효과적인 평가를 설계하고 전달하는 것뿐만 아니라, 그것의 적용을 우선순위화하고 학습 생태계 내에서의 더 넓은 역할을 고려하는 데 있습니다.

지금까지의 진전을 바탕으로, 미래의 평가는 교육 및 훈련 이해관계자들에게 권한을 부여하는 방향으로 계속 발전해야 합니다. 평가를 이해하는 것은 간단한 일이 아니지만, 시작점으로 다음과 같은 몇 가지를 명확히 하는 것이 유용합니다. 단일 고위험 평가를 포함한 평가 시스템의 진정한 목적을 명확히 하고, 20세기 유효한 측정은 주로 시험, 보고서, 퀴즈와 같은 총괄적 측정에만 국한된다는 선입견에서 벗어나는 태도를 독려하는 것입니다. 또한 형성 평가에 대한 연구에서 비롯된 발전, 그리고 학습과 밀접한 관계를 맺고 있는 피드백에 대해 배울 필요가 있습니다. 마지막으로, 기술 중심적인 학습 접근 방식을 수용하면서, 평가가 실시간으로 그리고 지속적으로 이루어질 수 있는 환경에서 학습자가 요구할 수 있는 지원 요소를 고려해야 합니다.

평가의 목적

학습 평가의 표면적인 이유는 의사결정을 지원하는 것입니다. 그러나 평가가 종종 특정 기준을 충족하거나 특정 결과를 달성하는 데 있어 단체나 개인에게 책임을 묻는 데 사용됩니다. 이와 같이, 학생 학습 결과는 거의 항상 표준화된 시험에서의 성과 향상, 특정 주제 영역 능력의 발전, 또는 인증 기관, 주 교육청, 혹은 고용주가 정의한 커리큘럼 목표 달성 등 어떤 형태의 바람직한 변화를 반영하도록 작성됩니다. 교실에서는 퀴즈가 학생들에게 학습 책임을 묻기 위해 사용될 수 있으며, 조직 수준에서는 표준화된 시험이 학군의 집단적 성과에 대한 책임을 묻는 데 사용되고, 직장에서는 준수 교육을 완료했는지를 확인하기 위해 평가가 사용될 수 있습니다.

그러나 이러한 책임감 기반의 평가 방식은 실질적으로 학습에 있어 유용성이 떨어지는 경우가 많습니다. 캔자스 주립대학에서 오랫동안 이어져 온 고등교육 학습 개선 실무 논문 시리즈에서 수잔 햇필드(Susan Hatfield)는 이를 다음과 같이 구분하여 강조했습니다:

평가를 실행하는 이유를 판단하는 가장 좋은 방법은 계획의 초점을 조사하는 것입니다. 계획의 초점이 단순히 데이터를 수집하는 데 있는가요? 아니면 수집된 데이터를 학생 학습 개선에 활용하는 데 있는가요? 다른 사람을 만족시키기 위해 설계된 평가 계획은 대개 많은 데이터를 수집하지만, 이를 의미 있게 활용하는 경우는 드뭅니다. 학생 학습에 초점을 맞춘 계획은 수집된 데이터를 실행 가능한 행동 방향과 연결합니다.

최근에 Google for Education Certification 시험을 봤습니다. 보통의 시험처럼 느껴져서 항상 해왔던 대로 벼락치기를 했죠. 제가 이전에 봤던 거의 모든 표준화 시험은 그렇게 준비해야 했거든요. 그런데 시험을 시작하자마자 깨달았습니다. 이건 벼락치기로 대비할 수 있는 시험이 아니었습니다! 시험 자체가 전부 실습 기반이라 시험을 치르면서 실제로 배우게 되었죠. 모든 도구를 사용할 수 있었고, 즐거운 경험처럼 느껴졌으며, 무엇보다 의미 있었습니다. 이 경험은 저에게 매우 소중합니다!

그 후 이 시리즈의 Level 2 시험을 볼 때는 똑같이 준비하지 않았습니다. 문제를 보고 상황을 곰곰이 생각했습니다. 시험 시간이 흐르는 줄도 몰랐고, 부담을 느끼지 않았습니다. 그때부터 학생들을 평가하는 방식에 변화를 주기 시작했습니다.

진정성이 핵심입니다. 우리는 이미 오래전에 지나간 세기에 갇혀 있습니다. 이걸 버리고, 학생들이 성장 마인드셋을 갖추고 존엄성을 지키며 노력하고 성장하도록 격려해야 합니다. 그래야 그들이 삶을 준비했다고 느낄 수 있을 겁니다. 인생이라는 학교… 이 모든 것이 역량 기반입니다.

Kimberly Eckert
Teacher, Brusly High School
Louisiana State Teacher of the Year 2018

햇필드가 언급한 “행동 방향”은 보다 즉각적인 과제나 수업 중심의 관점에서부터 조직적이고 평생 학습에 대한 고려까지 다양한 개념적 수준에서 발생할 수 있습니다. 다시 말해, 책임감 평가든 형성적 학습 평가든, 거시적 수준의 결정을 알리는 평가는 미시적 수준의 평가와 다릅니다. 거시적 수준의 결정은 단일 증거에만 의존하지 않습니다. 예를 들어, 교육 시스템에서는 교실에서 학교, 학군, 주로 의사결정 계층이 올라갈수록, 다양한 평가 결과를 종합하고 신중한 인간적 판단을 내리는 평가(evaluation)가 중요해집니다.

평가는 데이터를 정확히 수집하는 능력과 지식 있는 교육 실천에서 파생된 판단 능력에 의존하는 복잡한 예술입니다. 효과적인 평가와 교수 경험은 평가 판단을 잘 내릴 수 있도록 하는 기반을 제공합니다.

평가가 논의에 포함되면, 평가의 목적과 유용성에 대한 관점이 확장됩니다. 평가 및 기타 거시적 수준의 평가는 학습의 영향을 측정하는 효과성 측정(measures of effectiveness)에 중점을 두어야 합니다. 이는 대학 입학률 증가나 직업 성과 향상과 같은 의미 있는 결과를 의미합니다. 효과성 측정은 학생의 학점 평균이나 교육 워크숍을 완료한 사람의 수와 같은 성과 측정(measures of performance)과 대조됩니다.

이러한 구분은 훈련과 교육의 본질에 다가갑니다. 사람들이 고등학교 작문 수업, 기업 훈련 프로그램, 또는 전문 군사 교육 세미나에 등록하든, 대부분의 형식적이고 비형식적인 학습의 목적은 실질적 역량(practical competence)을 배양하는 것입니다. 이는 특정 맥락이나 환경에서 반드시 구현되는 능력입니다. 예를 들어, 학생들에게 일반적인 의사소통 목표를 달성하라고 하면, 그들은 흥미를 잃거나 소극적으로 될 가능성이 큽니다. 그러나 학생들에게 대학 입학 에세이, 회사 업무 계획서, 또는 군사 작전 명령서를 작성하도록 초점을 맞추면, 그들의 동기가 더 커질 뿐 아니라, 그들의 능력 평가도 더 진정성 있고 의미 있으며 신뢰할 수 있게 될 것입니다.

성인 교육 및 훈련에서 가장 지속적인 문제 중 하나는 실제 수행—즉, 실제 사람들이 실제 직무를 수행하는 것—이 학습 결과와 어떻게 연관되는지를 이해하는 데 부족함에서 비롯됩니다. 이 문제의 일부는 역량, 역량 군(competencies), 그리고 학습 결과 간의 차이를 이해하는 데 있습니다. 역량(Competence)은 개인, 팀, 조직에 내재된 숨겨진 속성으로, 직접적으로 평가할 수 없습니다. 반면, 역량 군(Competencies)은 지식, 기술, 태도, 속성, 기타 특성의 집합으로, 역량을 항목화하려는 시도입니다. 이는 직무 요구사항을 기술하거나 교육 및 훈련의 학습 결과를 정의하는 데 사용될 수 있습니다.

불행히도, 대인 의사소통이나 리더십 기술과 같은 고차원적 인지 및 사회 정서적 역량을 요구하는 활동일수록, 그 구성 요소를 식별하고 정의하며 평가하기가 더 어려워집니다. 또한, 실질적 역량은 다양한 역량의 상호작용(예: 공감 및 의사소통 기술과 주제 전문성의 결합)을 요구하므로 더 복잡해집니다. 이는 흔히 말하는 “빙산 문제”입니다. 예를 들어, 상사가 당신의 직무에 중요하다고 생각하는 역량은 가장 눈에 잘 띄는 측면에 고정되어 있는 반면, 당신은 직무가 덜 보이고 덜 정의된 또 다른 측면도 포함된다는 것을 알고 있습니다.

결론적으로, 평가의 목적을 명확히 파악하는 것은 그 생산적 유용성을 높이는 첫걸음입니다. 평가의 진정한 목적이 분석되어야 합니다. 가장 의미 있는 것을 측정하려는 것인가, 아니면 단지 가장 편리한 것을 측정하려는 것인가? 평가 시스템이 현실적인 역량을 충분히 다루고 있으며, 이를 현실적으로 측정할 수 있을 정도로 평가의 폭과 깊이가 충분한가? 마지막으로, 평가 결과가 교수 개선에 사용된다는 증거가 있는가? 후자의 질문에 대해, 평가 결과는 교수법의 적응이나 조직적 결정을 알리는 데 사용될 수 있으며, 특히 학습자, 교사, 트레이너, 그리고 조직에 귀중한 피드백을 생성하는 데 사용될 수 있습니다.

학습자가 평가에서 필요로 하는 것

평가는 그 자체로 학습에 영향을 미칩니다. 사람들은 평가를 받을 것을 알면 행동을 바꾸고, 평가를 완료하는 과정에서 자신의 지식과 기술을 상기하고 활용하게 됩니다. 하지만, 평가에서 수집된 증거를 실제로 활용하는 것이 훨씬 더 큰 가치를 제공합니다. 안타깝게도, 너무 자주 많은 데이터가 생성되지만 실질적으로 활용되지 않는 경우가 많습니다.

  1. 서비스 가능한 피드백

평가에서 피드백의 중요성은 크게 과소평가되고 있으며, 고품질 피드백이란 무엇인지에 대한 이해도 종종 부족합니다. 가장 기본적인 수준에서 고품질 피드백은 교육 시스템이 루프를 닫아 완전한 순환을 이루게 하며, 학습자와 조직에게 발전 과정을 개선할 데이터를 제공해야 합니다.
로이스 새들러(Royce Sadler)는 형성 평가에 대한 널리 인용된 논문에서 이렇게 설명했습니다.
“만약 정보가 단순히 기록되거나, 결과를 변경할 권한이나 지식을 갖지 못한 제3자에게 전달되거나, 지나치게 암호화되어(예: 교사가 부여한 요약 점수처럼) 적절한 행동으로 이어지지 못한다면, 제어 루프는 닫히지 않고 ’떠도는 데이터(dangling data)’가 효과적인 피드백을 대신하게 됩니다.”

새들러가 언급한 ‘제어 루프’는 학습을 순환 과정으로 개념화하며, 피드백을 특정 역량의 실제 수준과 목표 수준 간의 격차를 점진적으로 줄이는 개입으로 간주하는 시스템 제어 기능을 말합니다. 교육과 학습의 어떤 측면도 의미 있게 알려주지 못하거나 발전을 돕지 못하는 평가 결과는 ‘떠도는 데이터’로 간주됩니다.

‘피드백’이라는 용어는 모호할 뿐만 아니라, 잘못된 명칭으로도 볼 수 있습니다. 평가 전문가 딜런 윌리엄(Dylan Wiliam)은 피드백이 사실상 후방보다는 전방을 보여주는 것으로 더 적절히 묘사된다고 즐겨 말합니다. 피드백은 성과 관찰, 조언, 반영을 촉진하는 질문 등 개인이나 그룹에 관련된 정보를 포함하며, 과거, 현재, 또는 미래의 성과를 언급할 수 있습니다.

그렇다면 교사와 강사가 정확하고 관련성 있는 피드백을 제공한다면 문제가 없을까요? 새들러는 다시 한번 핵심 문제를 지적했습니다. 학습자가 피드백을 이해하고 실행하는 데 어려움을 겪는 이유는 몇 가지가 있습니다.
학습자는 자신이 수행한 작업과 의도했던 작업 사이의 경계를 명확히 인식하지 못할 수 있습니다. 과제와 관련된 용어나 기준을 이해하지 못할 수 있습니다. 학습자는 암묵적 지식을 이해하지 못할 수 있습니다. 예를 들어, “이것은 앞선 내용과 논리적으로 연결되지 않는다”라는 피드백은 잘못된 글 구조를 인식하지 못하는 학생들에게는 의미가 없습니다. 학습자는 조언을 충분히 빠르게 통합하거나 적용하지 못할 수 있습니다.

따라서 교사와 강사는 학습자의 작업에 대한 관점, 직면한 과제, 그리고 학습에서의 격차를 더 잘 이해해야 효과적으로 피드백을 제공할 수 있습니다. 또한, 학습자 자기 평가와 동료 평가를 도입하는 것이 이러한 필요를 충족하는 데 크게 기여할 수 있습니다.
존 해티(John Hattie)와 헬렌 팀퍼리(Helen Timperley)는 포괄적이고 적절한 피드백을 생성하기 위한 또 다른 모델을 제시했습니다. 그들은 학습자가 자신의 성과와 관련하여 세 가지 질문에 대한 답을 필요로 한다고 믿습니다.

학습자는 성과 목표에 대한 정보를 필요로 하며, 이는 “어디로 가야 하는가?”라는 질문에 답합니다. 여기에는 구체적이고 이해 가능한 성공 기준이 포함되며, 이를 “피드 업(feed up)” 단계라고 부릅니다. 이어서 “어떻게 하고 있는가?”라는 질문에 답하는 “피드백(feedback)” 단계가 있습니다. 마지막으로 “다음에는 무엇을 해야 하는가?”라는 질문이 있으며, 이는 “피드 포워드(feed forward)” 단계로, 학습과 발전에 있어 가장 중요한 분기점으로 간주됩니다.

또한, 해티와 팀퍼리는 피드백이 과제, 과제 처리, 자기 조절, 그리고 개인에 대한 네 가지 목표를 가져야 한다고 제안합니다. 이 세 가지 질문은 각 카테고리에 적용되며, 이 열두 가지 목표는 학습자 피드백을 위한 유용한 휴리스틱 목록이 됩니다.

  1. 증거 기반 시스템

교육과 훈련의 특성이 진화함에 따라 미래 학습 생태계 개념이 제공하는 가능성으로 인해 새로운 평가 및 피드백 모델이 더 쉽게 지원될 수 있습니다. 예를 들어, 새로운 미디어 기기, 웨어러블 센서, IoT 장치의 확산은 방대한 데이터를 생성했습니다. 이러한 새로운 하드웨어 도구가 없어도, 누군가의 활동(예: 소셜 미디어 앱이나 전자상거래 사이트에서의 행동)을 놀라울 정도의 정밀도로 추적할 수 있습니다. 이러한 데이터에서 드러난 행동을 분석함으로써, 기존의 평가로는 상상할 수 없었던 방식으로 개인의 태도와 역량을 더 잘 이해할 수 있습니다.

발레리 슈트(Valerie Shute)와 동료들은 “스텔스 평가(stealth assessment)“라는 개념을 대중화했습니다. 이는 증거 중심 설계 원칙에 기반한 평가를 애플리케이션 환경의 본질적 요소로서 직접적이고 보이지 않게 통합하는 것을 말합니다. 예를 들어, 그들은 인기 있는 비디오 게임 Plants vs. Zombies 2에 스텔스 평가를 통합했으며, 플레이어의 상호작용을 통해 문제 해결 능력을 추론할 수 있었습니다. 슈트와 그의 연구진은 이러한 접근법이 특히 인내심, 창의성, 자기효능감, 개방성, 팀워크와 같은 평가하기 어려운 특정 정의되지 않은 역량에 유용하다고 추천했습니다.

슈트와 동료들은 평가를 숨기거나 개인이 모르게 평가하는 것을 권장하지 않습니다. 대신 “스텔스”라는 용어는 측정이 과제 외부 활동이 아니라 과제 내에 자연스럽게 위치한 마찰 없는 통합을 의미합니다. 스텔스 평가의 두 가지 특징은 평가가 단일 시점의 총괄 평가와 대조적으로 지속적이며, 정답과 오답이 명확히 정의된 표준화 시험과 달리 확률적이라는 점입니다.

a8c836c1-8bbe-41f0-9f1d-bbfc1a4b7b69-image.png

스텔스 평가는 다양한 데이터 기반 분석 방법에 의해 지원되거나 이를 보완할 수 있습니다. 이 책의 9장에서 논의된 바와 같이, 학습 분석(learning analytics) 및 교육 데이터 마이닝(educational data mining)이 이러한 접근법에 해당합니다. 스탠포드 대학교의 캔디스 틸(Candace Thille) 교수는 유사한 기술이 전자상거래를 어떻게 변화시켰는지와 학습 분석의 유사점을 언급했습니다. 기업들은 구매 패턴을 예측하고, 타겟 광고를 사용하며, 빈번한 A/B 테스트를 통해 비즈니스를 지속적으로 개선합니다. 비슷한 역량이 학습에도 적용되어, 집단 또는 유형별 학습자 요구를 파악하고, 개별 필요와 특성에 따라 학습을 개인화하며, 특정 코스에서 성공할 가능성이 있는 개인을 예측하는 데 도움을 줍니다.

“이 기술의 가장 큰 힘은 이러한 상호작용을 구축하고, 학생들의 상호작용 데이터를 수집하며, 이를 학습 시스템의 매우 강력한 피드백 루프를 작동시키는 데 활용할 수 있다는 점입니다.”

– Candace Thille

그러나 스텔스 평가, 학습 분석, 교육 데이터 마이닝은 새들러가 언급한 “떠도는 데이터(dangling data)” 문제에 직면할 수 있습니다. 다시 말해, 예를 들어 누군가의 문제 해결 능력을 추정할 수 있지만, 이를 개선하거나 학습자에게 평가 결과를 전달하지 않는 경우가 있습니다. 이상적으로는 그러한 데이터는 단순히 외부적인 판단을 내리는 데 사용되어서는 안 되며, 개인과 조직이 목표를 더 잘 달성하도록 돕는 데 활용되어야 합니다.

또한, 이는 데이터를 자동화된 개인화나 AI 기반 적응에만 활용하는 것을 의미하지 않습니다. 자동화의 사용이 증가하면서 학습자, 교사, 훈련자의 권한이 약화될 위험이 있습니다. 자동화 시스템은 잠재력이 크지만, 그 약점은 종종 사용자 인터페이스(UI)와 사용자 경험(UX)에 있습니다. 현재에도 비교적 단순한 시기임에도 불구하고, 컴퓨터 지원 교육은 UI/UX 설계 문제, 전달 도구의 부적합, 학습자가 무의미하다고 여기는 평가들로 어려움을 겪고 있습니다. 새로운 기술이 더 빈번하고 세밀하게 조율된 평가를 가능하게 한다고 해도, 학습자와 강사가 평가, 피드백, 후속 개입 권장 사항을 이해하고 활용할 수 있는 상호작용적 지원을 제공하지 못하면 상대적으로 의미가 없을 수 있습니다.

  1. 학습자 자율성

애서배스카 대학(Athabasca University)의 존 드론(Jon Dron) 교수는 이와 관련하여 상호작용적 통제(transactional control) 이론을 제안했습니다. 이는 마이클 무어(Michael Moore)의 잘 알려진 상호작용적 거리(transactional distance) 이론을 확장한 것으로, e-러닝 맥락에서 누군가 느끼는 상대적 ‘거리’는 학습자와 강사 간의 물리적 분리가 아니라 해당 학습 환경의 상호작용 및 구조의 정도에 의해 결정된다는 것을 보여줍니다.

드론은 상호작용적 거리 이론을 확장하여, 통제 또는 교사와 학습자가 선택을 내리는 정도가 학습 상황에서 근본적인 역학임을 강조했습니다. 이 핵심 아이디어는 유연성, 통제의 협상(혹은 ‘대화’), 그리고 자율성이 학습 맥락에서 매우 중요하다는 것입니다. 드론은 다음과 같이 설명합니다:

“대부분의 학습 거래는 학습자 또는 더 자주 교사가 통제하는 방향으로 치우칩니다. 학습자의 관점에서, 효과적으로 활용할 수 있는 권한 없이 통제를 부여받는 것은 좋지 않습니다. 학습자는 정의상 자신의 학습 경로의 적어도 일부 측면에 대해 효과적인 결정을 내릴 만큼 충분히 지식이 있는 상태가 아니기 때문입니다. 반면, 너무 많은 교사 통제는 학습 경험을 부적절하게 조정하게 되어 학습자가 지루함, 동기 상실, 또는 혼란을 경험할 수 있습니다. 이 문제를 해결하는 가장 좋은 방법은 대화를 통해 통제를 지속적으로 협상하여 학습자의 요구를 충족시키는 것입니다… 이상적인 상황은 학습자가 학습 거래의 어느 시점에서든 통제를 위임할지 여부와 시기를 선택할 수 있도록 허용하는 것입니다.”

주요 교훈은 학습자가 계속해서 몰입하고, 자신만의 지식과 기술을 구축하며, 자기조절 능력을 개발할 수 있도록 충분한 자율성을 보장해야 한다는 점입니다. 교사 또는 AI가 통제하는 학습과 학습자가 무질서하게 자기 주도적으로 학습하는 사이에서 적절한 균형을 찾는 것이 중요합니다. 드론의 인용이 강조하듯, 가능한 한 통제의 협상을 우선시하는 시스템이 선호됩니다. 미래의 학습 생태계에서는 개인 및 집단 학습자, 교사, 자동화 시스템 간에 통제가 어떻게 분배될지에 대해 깊이 고민할 필요가 있습니다.

권장 사항

평가와 피드백의 원칙, 그리고 새로운 기술이 제공하는 기회(및 도전 과제)를 고려할 때, 미래를 위한 평가와 피드백과 관련하여 몇 가지 중요한 전제를 숙고해야 합니다.

292173bd-4064-45a8-b16b-0864546ca2d2-image.png

  1. 무엇보다도 학습자의 동기를 육성하세요.

교육 설계자가 평가 활동과 관련하여 학습자의 관심과 동기를 키우려고 노력하는 한, 그들은 훌륭한 변화 촉진자입니다. 평가가 잘 설계되고 실행된다면, 학습자의 개념, 의사소통 기술, 주제 분야 전문성, 판단력 및 능력을 발전시킬 수 있는 풍부한 기회를 제공합니다.

  1. 평가와 피드백을 학습자 중심으로 만드세요.

학습자는 단순히 수동적인 그릇이 아니라, 동기가 부여되었을 때 유용한 피드백을 스스로 찾는 능동적인 참여자입니다. 교육자와 트레이너는 학습자의 관점에서 평가를 바라보려고 노력해야 합니다. 평가에서의 성공은 다른 모든 교육 및 훈련 요소와 마찬가지로 학습자의 참여와 깊이 연관되어 있습니다. 심지어 상상 속 미래에서 AI 시스템이 학습 우선순위, 콘텐츠 및 순서를 결정할 수 있는 능력을 갖춘 경우에도, 학습자는 여전히 적극적으로 참여하고, 명확한 피드백을 받으며, 자신의 학습에 대한 주도권을 부여받아야 합니다.

  1. 평가를 교육과정에 통합하세요.

교육과 평가의 관계는 진정한 공생 관계에 있으며, 둘은 불가분하게 연결되고 상호작용합니다. 다양한 유형의 평가 활동이 수업, 모듈, 교육 과정 전반에 걸쳐 포함되어야 합니다. 그렇다 하더라도, 평가의 상대적 중요성은 항상 다양할 것이며, 이는 당연한 일입니다. 평가가 교육의 전반적인 목표를 얼마나 충족하느냐는 그 평가가 사회적으로 구축된 가치를 어느 정도로 가지고 있는지를 나타냅니다.

컴퓨터와 인간의 협력:

애리조나 주립대학교에서는 매우 큰 규모의 입문 과목이 몇 가지 있습니다. 예를 들어, 대학 대수학(College Algebra) 과목은 3,000명의 학생이 수강합니다. 약 5년 전, 우리는 적응형 일반 교육 구조를 만들었습니다. 대학 대수학 과목은 약 13개의 모듈로 구성되어 있지만, 학생들이 일찍 수업을 마칠 경우, 스트레치 버전(stretch-version) 수업에 등록할 수 있습니다. 이 수업은 추가 비용 없이 제공되며, 두 번째 학기 학점을 인정받을 수 있습니다. 우리는 ALEKS라는 프로그램을 사용하여 수업을 진행하고, 적응형 시험과 적응형 배치를 통해 각 학생이 수강할 준비가 된 과목(대수학, 예비 미적분학, 미적분학)을 결정합니다.

물론 ALEKS가 완벽하지는 않아서, 누군가는 대학 대수학 과목에 배정된 후 한 달 만에 과정을 끝낼 수도 있습니다. 그래도 괜찮습니다! 이 과정에는 또 다른 요소가 있지만, 확장성이 떨어지는 부분도 있습니다. 학생들은 반드시 수업에 참석해야 하며, 수업에서는 교습 조교들의 지도 아래 시험을 봅니다. 약 일주일에 한 번씩, 학생들은 소규모 그룹으로 모여 더 어려운 문제를 풀며, 이 문제들은 협력적 문제 해결 능력이 중요한 기술이기 때문에 그룹 단위로 점수가 매겨집니다. 이 시간 동안 수업은 매우 활발하며 학생들은 소란스럽지만, 이 과정이 그들을 수업에 몰입하게 만듭니다.

이 학생들은 대부분 학부생이기 때문에, 대면 수업은 임상 상담의 일부 역할도 합니다. 조교들은 멘토 역할을 하며, 어려움을 겪는 학생을 발견하면 상담사에게 소개할 수 있습니다. 상담 직원들을 위한 웹 기반 시스템도 마련되어 있습니다. 우리는 특히 첫 학기를 맞는 신입생들을 돕는 데 열정을 가지고 있습니다!

Courtesy of Kurt VanLehn, Ph.D., Professor, Computing, Informatics,
and Decision Systems Engineering, Arizona State University

4. 다양한 데이터 유형 수집

학습을 위한 기능적인 평가 시스템은 다양한 측정 방식을 통합해야 합니다. 예를 들어, 정량적, 정성적, 추정치 기반, 그리고 예측 데이터를 포함하는 것이 바람직합니다. 이러한 접근법은 측정 목표의 사회과학적 특성에 적합합니다. 미래에는 상호 연결된 학습 생태계 비전이 실현됨에 따라, 매우 다양한 출처에서 평가 증거를 수집하고 이를 지속 가능한 학습자 프로필에 저장하며, 이를 집합적으로 검토할 수 있습니다. 이는 실제 상황에서의 역량뿐만 아니라 다양한 지식, 기술, 태도 및 기타 특성 간의 상호작용을 더 잘 이해할 수 있는 기회를 제공할 것입니다.

5. 유창성 환상을 완화

오늘날 우리가 가장 높이 평가하는 평가는 주로 총괄적 수행(예: 기말 시험, 공식 발표, 최종 프로젝트, 전문 포트폴리오)인데, 이는 연습 및 학습 맥락과 상당히 다릅니다. 이러한 차이는 개인이 자신의 유창성—즉, 연습 환경에서 기술을 기억하고 적용하는 능력—이 수행 시나리오에서도 그대로 나타날 것이라 잘못 판단하는 유창성 환상을 초래할 수 있습니다. 이를 완화하려면 학습자에게 사전 시험이나 시범 수행과 같은 연습 평가 기회를 제공해야 합니다. 이러한 연습은 시간 간격을 두고, 다양한 장소나 조건에서 이루어지며, 문제나 콘텐츠 요소를 섞어 제공하는 특정 방식(교육자와 심리학자들이 교차 연습이라고 부르는 방식)을 통해 이루어져야 합니다.

6. 초기 단계에서 교육과정 정렬 계획

좋은 평가는 수업 설계 과정의 매우 초기 단계에서 계획되며, 이는 학습 후 성공이 어떤 모습일지 상상하는 것으로 시작됩니다. 결과와 평가는 교육의 “뼈대”와 같으며, 먼저 구성된 후 이를 중심으로 수업이 구조화되어야 합니다. 이러한 과정을 평가의 역설계(backwards design)라고 합니다. 평가를 부차적인 문제로 치부하면 특정 학습 목표와 관련 없는 성취를 측정할 가능성이 커져 타당성이 위태로워질 수 있습니다.

7. 학습 설계에 피드백 통합

평가와 마찬가지로 피드백 접근 방식은 수업 설계 과정 초기에 통합되어야 합니다. 강사와 학습자 간 대화로서의 피드백은 매우 생산적이지만, 학습자는 종종 여러 출처로부터 피드백을 받습니다. 이러한 다방향적이고 분산된 피드백 루프가 수업 설계에 어떻게 맞아떨어지는지 계획이 필요합니다. 특히 자동화가 증가하면서 개인의 학습 제어와 투명성을 감소시킬 위험이 있으므로, 명시적이고 신중한 노력이 필요합니다. 좋은 피드백 설계는 학습자가 시의적절하고 실행 가능하며, 그들의 필요에 맞춘 유용한 정보를 받을 수 있도록 보장합니다.

8. 체계적인 변화 계획

평가에서 가장 도전적인 측면은 모든 요소가 어떻게 맞아떨어지는지를 알아내는 것입니다. 수업 설계, 전달, 평가 및 측정 데이터가 집합적으로 어떻게 특정 그룹이나 개인의 학습 경험을 설명하고, 이러한 경험을 체계적으로 개선할 수 있는지를 파악해야 합니다. 조직적으로 평가 결과가 활용되도록 하는 강제적 기능이나 메커니즘이 있어야 합니다. 하지만 교사와 강사, 또는 자동화 시스템이 단독으로 그 결정을 내려서는 안 됩니다. 평가에 따라 조치를 취하는 것이 중요하지만, 이를 학습자와 함께 고려하는 것도 똑같이 중요합니다.

결론

교육과 의술의 실천을 비교하는 일이 더 자주 이루어지지 않는다는 점은 이상하게 느껴집니다. 두 분야 모두 엄청난 기술, 전문성 개발, 그리고 지속적인 실습을 요구합니다. 평가 전문가인 딜런 윌리엄(Dylan Wiliam)은 이렇게 말합니다: 교사는 전문성 개발이 필요합니다. 왜냐하면 가르치는 일은 너무나 어렵고 복잡하여 한 평생으로는 이를 완전히 숙달하기에 부족하기 때문입니다. 가르치는 일에서의 평가를 숙달하는 것은 응급실에서의 분류(triage) 기술을 숙달하는 것과 유사합니다. 성공적인 개입은 각 개인의 독특한 상황을 성공적으로 평가하는 데 달려 있기 때문입니다. 그리고 그렇습니다, 우리의 생존과 미래의 성공이 효과적인 훈련과 교육을 습득하는 데 크게 의존하기 때문에, 이론적으로는 학습의 필요성이 많은 건강 요구만큼이나 긴급하다고 할 수 있습니다.

아마도 우리 대부분이 코치, 직장의 견습생을 가르치는 트레이너, 또는 자녀의 교사 역할을 해본 적이 있기 때문에, 교육 과정은 어느 순간 신비로움을 잃었을지도 모릅니다. 하지만 더 명확한 비전은 우리가 그 신비를 다시 감상하고, 새로운 열정을 되찾으며, 평가를 재정의하고 재구상하여 더 효과적이고 목적성 있게 학생들을 고양하고 동기를 부여하는 데 도움이 되기를 바랍니다.