분석 및 데이터 시각화는 이제 주류로 자리 잡았습니다. 클라우드 서비스의 성숙과 새로운 웹 기술의 도입은 이 두 분야의 가속화를 이끌었습니다. 가장 중요한 혁신 중 하나는 새로운 스트리밍 데이터 시스템의 개발입니다. 이러한 기술은 전통적인 웹 및 소셜 미디어 기술뿐만 아니라 소비자용 웨어러블, 스마트 시티 구현, 연결된 산업 장치와 같은 사이버-물리 시스템에 배치된 기계 및 센서가 생성하는 기하급수적으로 증가하는 데이터를 처리할 수 있습니다.

이 장은 스트리밍 데이터, 학습 분석, 데이터 시각화에 대한 최신 상태를 기술적 배경 지식이 없는 독자들에게 요약하여 제공합니다. 이 장은 문맥을 설명하고, 비전을 제시하며, 구현 접근 방식에 대한 고수준의 지침을 제공합니다. 목표는 교사와 강사, 비즈니스 사용자, 그리고 프로그램 의사 결정자가 학습 분석과 시각화가 학습 조직의 역량을 어떻게 증대시킬 수 있는지, 그리고 그러한 시스템 구현에 대한 전반적인 접근 방식을 상상할 수 있도록 실질적인 지식을 제공하는 것입니다.

무엇에 대해 이야기하고 있습니까?

세상에는 너무나도 많은 데이터가 존재합니다. 우리 각자는 매번 마우스 클릭을 하거나 좋아요를 누를 때마다 “데이터 배출(data exhaust)“이라는 흔적을 남깁니다. 학습자들 역시 대량의 데이터를 생성하며, 이 데이터는 접근, 분석, 그리고 의미 있는 시각화가 가능하다면 교육 및 훈련에 유용한 정보를 제공할 수 있습니다. 이 목표를 달성하기 위해 교육 데이터 마이닝(Educational Data Mining)과 학습 분석(Learning Analytics)이라는 두 가지 밀접한 관련 분야가 도구를 제공하고 있습니다.

이 두 분야는 약간의 차이점이 있습니다. 예를 들어, 기원, 주요 응용 영역, 선호하는 AI 알고리즘에 따라 다릅니다.
학습 분석(Learning Analytics)은 시맨틱 웹(Semantic Web) 노력에서 비롯되었으며, 주로 교사와 학습자를 위한 큰 그림 분석과 의사결정 지원에 중점을 둡니다.
반면 교육 데이터 마이닝(Educational Data Mining)은 적응형 교육 기술 전통에서 발전했으며, 자동화된 적응 및 환원주의적 모델링에 더 중점을 둡니다.
이 장에서는 이 두 학문의 세부적인 차이점에 집중하기보다는, 교육과 훈련을 데이터 중심의 접근 방식으로 이해하고 적용하는 데 초점을 맞춥니다. 특히 대규모 학습 데이터(빅 러닝 데이터)라 불리는 것들에 중점을 둡니다.

“빅 데이터”라는 표현이 암시하듯, 교육 및 훈련 분석은 종종 (그러나 항상 그런 것은 아니며) 기계 학습(machine learning) 기법을 활용합니다. 기계 학습은 AI의 하위 집합으로, 데이터 내에서 패턴을 자동으로 발견하기 위해 알고리즘을 사용하는 방법입니다. 예를 들어, 분류를 지정하거나, 다양한 변수가 결과에 미치는 영향을 추정하거나, 과거 데이터를 기반으로 예측을 수행할 수 있습니다.
교육 및 훈련 분야에서 이러한 응용 기술은 지난 20년 동안 크게 발전했으며, 앞서 언급한 두 공동체로 결집되었습니다.

그렇다면 이러한 도구로 무엇을 할 수 있을까요?
사람들은 다양한 학습 시스템에 분석을 적용해 왔습니다. 예를 들어, 일부 응용 프로그램은 학습자의 참여를 예측하고 개인화된 리소스를 추천하여 학생들의 참여를 유도합니다.
또 다른 도구는 학생들의 상호작용을 분석하고, 교사에게 어떤 학생이 도움이 필요할지 사전에 경고합니다.
대표적인 예로, 퍼듀 대학교의 Course Signals는 학습 관리 시스템(LMS)의 현재 데이터를 과거 데이터(예: 출석률과 이전 성적)와 결합하여 수업에서 뒤처질 가능성이 있는 학생을 예측하고, 학생과 교사 모두에게 위험 수준을 알렸습니다.
또한, 유사한 유지 관리 접근 방식은 전체 학생 집단에 걸쳐 적용되어, 중퇴 가능성이 가장 높은 학생들을 식별하고, 관리자가 개입할 시간을 제공합니다.
기본적으로 시간 민감형 개인화된 추천에서부터 시스템 전반의 추세 분석에 이르기까지, e-커머스 시스템에서 기대되는 대부분의 분석 응용 프로그램은 학습 분석에서도 동일하게 적용될 수 있습니다.

스트림에 발을 담가보기

스트리밍 데이터 분석은 분석 분야에서 독특하고 흥미로운 새롭게 떠오르는 하위 분야입니다. 스트리밍 데이터를 말할 때, 일반적으로 이벤트 기반 데이터 유형을 지칭하며, 인간이나 기계에서 발생한 다양한 활동을 추적합니다. 스트리밍 데이터의 발명은 데이터 자체가 무엇을 나타내는지에 대한 우리의 사고방식과 이를 인간의 통찰이나 자동화된 기계 프로세스를 이끄는 데 활용하는 방식에 영향을 미쳤습니다.

예를 들어, 판매와 마케팅 분야에서 이벤트 기반 데이터는 시장과 잠재 고객을 이해하는 우리의 역량을 높였습니다. 소셜 미디어 스트림 분석을 통해 제품이나 서비스와 직접적 또는 간접적으로 관련된 잠재 고객 여정의 이야기를 엿볼 수 있는 창을 제공합니다.
엔터테인먼트 산업에서는 스트리밍 데이터가 Netflix와 같은 플랫폼에서 영화와 TV 프로그램 콘텐츠를 추천하는 데 사용됩니다.
정치에서는 스트리밍 데이터가 분석가들이 대중의 정서와 사회적 트렌드를 파악하고 이를 활용할 수 있도록 돕습니다.

데이터 스트림 아키텍처는 전통적인 배치 처리 시스템과 대조됩니다. 데이터 스트림은 고속으로 이동하는 데이터가 특징입니다. 또한, 제한된 메모리와 시간 내에서 수신 데이터를 실시간으로 처리해야 하는 엄격한 제약 조건을 가지며, 요청 시 항상 분석 예측을 제공할 준비가 되어 있어야 합니다.

이 기술과 데이터 아키텍처가 비즈니스, 엔터테인먼트, 정치 분야를 변혁시켰듯이, 학습 분야에서도 변화를 가져올 수 있습니다.
학습 영역에서 활동 기반 데이터 스트림의 가용성은 학습자의 여정을 추적하고 이해할 기회를 제공합니다.
이 데이터 스트림을 활용한 분석은 접근 가능한, 자동화된, 거의 실시간으로 작동하는 데이터 시각화를 제공하며, 주요 성과 지표를 기반으로 알림이나 개입을 트리거할 수 있습니다.
이러한 여정은 학습자의 활동과 행동 프로필로 구성되며, 매우 형성적이고 정량화 가능한 마이크로 평가로 간주될 수 있습니다.

아날로그 세계의 디지털화
우리는 종종 아날로그 세계를 디지털화하려는 욕구를 목격합니다. 예를 들어, 태엽식 시계를 닮은 디지털 손목시계를 착용하거나, 물리적 직장 환경의 요소를 모방한 컴퓨터 안의 “사무실”을 만듭니다. 교육 분야에서는 칠판, 노트, 책 등을 디지털화합니다. 그러나 아날로그 세계를 디지털 영역 내에서 재현하려는 경향은 결국 아날로그 관행의 한계와, 때로는 긍정적으로 작용하여 혁신이라 부르는 예상치 못한 결과에 직면하게 됩니다.

칠판이나 책 같은 유형의 “물건”에서 평가와 같은 개념적 관행이나 과정으로 전환할 때, 상황은 특히 복잡해집니다. 세밀하고 복잡한 개념들이 지나치게 단순화되어 본래의 의미가 왜곡되기 쉽습니다. 이러한 상황에서 “AI가 교사를 대체할 것이다!” 또는 “자동화는 절대 교사를 대신할 수 없다!“와 같은 논의가 나오곤 합니다. 그러나 이러한 주장은 AI와 교사 양쪽에 대한 오해에서 비롯된 경우가 많습니다.

인터넷을 통해 학습 접근성이 널리 분산되고, 방대한 범위를 제공하며, 언제든 이용 가능한 세상에서 교육의 아날로그 접근 방식은 실질적인 한계에 직면하게 됩니다. AI가 인간 교사를 “대체”할 위험은 거의 없지만, 교사의 역할과 교육 및 훈련을 구현하는 방식은 변화하는 기술과 함께 진화해야 합니다.

대규모 학습이 필요한 세상에서 진정한 논의는 “AI가 교사의 필요를 어떻게 충족시킬 수 있는가, 그리고 그 반대로는 어떠한가?”여야 합니다.

규모의 데이터

아날로그 방식의 “데이터 세트”와 현대적인 “데이터 자산”을 비교해보면, 소셜 미디어 뉴스피드에서 생성되는 데이터 자산은 시간에 따라 누적된 행동 기록을 기반으로 사용자들의 행동 프로파일을 형성합니다. 이러한 행동 기록에는 좋아요, 댓글, 공유, 사진 게시, 동영상 시청 등 소셜 미디어 플랫폼에서 사용자가 수행한 모든 행동이 포함됩니다. 이는 사용자 행동 프로파일의 일부가 되며, 거대한 소셜 그래프에서 하나의 노드가 됩니다. 각 노드는 자신의 내러티브를 가지고 있으며, 이러한 데이터 자산은 소셜 미디어 산업의 비즈니스 모델에서 핵심적인 역할을 합니다.

이 데이터 자산은 단순히 개별 사용자의 특정 광고 수용 가능성을 예측하는 데 그치지 않습니다(물론 이는 일부 이점이 될 수 있지만). 오히려 더 중요한 가치는 이러한 행동 프로파일의 누적적 집합체에서 나옵니다. 집계된 대규모 데이터만이 인간 행동의 다양한 패턴, 관심사의 범주, 그리고 공유된 인간 경험의 내러티브를 발견할 수 있는 풍부한 원천 데이터를 제공합니다. 핵심은 규모에 있습니다.

마찬가지로, 스트리밍 데이터가 전통적인 평가 방식에 제기하는 도전 과제는 결국 규모의 문제로 귀결됩니다. 대규모로 운영되는 성적표는 학습 경험에 대한 통찰력을 대규모 활동 피드가 제공하는 만큼 전달할 수 없습니다. 이는 성적표의 가치를 폄하하는 것이 아니라, 성적표의 기능과 그 가치를 어디에서 찾아야 하는지를 인식해야 한다는 점을 상기시키는 것입니다.

일반적인 성적표는 문자 등급과 백분율로 가득 차 있습니다. 한편으로는, 이러한 문자와 숫자로 이루어진 표가 한 학생이 시간에 따라 어떻게 발전했는지, 또는 그녀가 또래 집단의 점수와 어떻게 비교되는지를 상당히 잘 보여줍니다. 그러나 다른 한편으로, 스트리밍 데이터의 세계에서 데이터를 학생들의 디지털 경험에 대한 내러티브로 간주한다면, 성적표는 실제로 무엇이 일어났는지, 어떻게 이루어졌는지, 그리고 그것이 학습자에 대해 무엇을 시사하는지에 대해 거의 알려주지 않습니다.

성적표와 이를 기반으로 한 평가 방식은 아날로그 기술입니다. 단순히 컴퓨터화되지 않았다는 이유만으로 디지털 기술보다 열등한 것은 아니지만, 디지털화되고 상호 연결된 세계에서 대규모 학습을 지원하기에는 적합하지 않은 이전 패러다임을 반영하는 기술입니다.

의사결정 지원

학습 실무자들은 오랫동안 형성적 발달에 대한 통찰력을 높이고자 노력해 왔습니다. 예를 들어, 교사들은 무의식적으로 “각 학생이 자신의 학습 여정에서 얼마나 멀리 왔는가?“라는 질문을 던질 수 있습니다. 그러나 자신감 있고 지속적인 형성적 평가를 내리기 위해 필요한 데이터를 수집하는 데 어려움이 있기 때문에, 대규모 종합 평가가 유일한 대안으로 보이는 경우가 많습니다. 이는 ‘규모 문제’로 이해될 수 있습니다. 그러나 소셜 미디어가 사용하는 방식과 유사하게 활동 및 이벤트 기반 데이터를 활용하면 학습자의 형성적 프로필을 만들 수 있습니다. 이를 통해 (인간) 교육자와 트레이너는 교육에 대한 더 나은 결정을 내리고, 그렇지 않으면 불가능했을 방식으로 지도를 조정할 수 있습니다.

마찬가지로 학습자, 관리자, 시스템 팀, 콘텐츠 및 경험 제공자 등 학습 생태계의 다양한 구성원이 자신의 역할을 개선하고 더 의미 있게 만들 수 있도록 관련 정보를 제공받을 수 있습니다.

이러한 활동 및 이벤트 기반 스트리밍 데이터를 지식으로 변환하고 이를 인간이 활용하는 과정은 형성적 평가의 황금기로 나아가는 길을 제시할 수 있습니다. 하지만 이 황금기는 사용되는 기술이나 교육 전략이 규모 문제를 해결하지 못한다면 실현될 수 없습니다.

따라서 과제는 “규모 없는” 맥락에서 전통적인 아날로그 방식으로 이해되는 평가를, 규모 있는 학습 관점에서 재구성하는 것입니다. 이를 논의하는 데 있어 핵심은 계산적 학습 분석(computational learning analytics)입니다. 디지털 세계에서의 평가는 확장 가능한 연속적이고 다차원적인 데이터를 고려해야만 합니다. 평가의 미래는 분석(analytics)입니다.

지금은 클라우드 서비스, 스트리밍 데이터 아키텍처, API, 그리고 새로운 세대의 웹 기반 애플리케이션에서의 발전을 활용하는 새로운 평가 모델을 조사하기에 적기입니다. 이러한 도구를 학습에 적용하면 이전에는 너무 모호하거나 지나치게 복잡해서 실행할 수 없었던 의미 있는 패턴을 발견할 수 있습니다.

미래 학습의 핵심 초점 중 하나는 데이터 분석입니다. 우리는 현재 “작업에 소요된 시간(time on task)“이나 “단일 영역의 지식 변화”와 같은 매우 형식화되고 의례화된 척도를 사용하고 있습니다. 이러한 사고방식을 어떻게 하면 학습에 대한 보다 광범위하고 포괄적인 ’우주적 관점(galactic view)’으로 전환할 수 있을까요?

Elliot Masie
Founder, The MASIE Center

이는 단순히 아날로그 평가를 대규모로 디지털화하는 것이 아니라 디지털 시대에 적합한 완전히 새로운 인간-기계 평가 모델을 고려해야 함을 시사합니다. 예를 들어, 자동화가 전술적 학습 개입(예: 마이크로 및 매크로 적응)을 최대한 효율적이고 신속하게 수행할 수 있도록 한다는 점은 자주 언급됩니다. 그러나 자동화는 인간이 가장 잘 다룰 수 있는 개입을 식별하는 데에도 도움이 될 수 있습니다. 이러한 웹 규모(context)에서 학습자는 단일로 지정된 강사뿐만 아니라 잠재적인 교사와 멘토의 분산된 네트워크를 통해 지원받을 수 있습니다. 또한, 다양한 자동 분석 결과에 따라 시스템은 특정 상황에 가장 적합한 (인간) 학습 촉진자를 추천할 수 있습니다. (이는 잠재적으로 학습자 자신을 포함할 수도 있습니다.)

이러한 방식으로 우리는 개별 지도의 광범위한 분배뿐만 아니라 인간 자본을 포함한 전체 생태계의 분배를 가능하게 합니다.

이는 기계와 인간이 서로를 보완하는 새로운 학습과 평가의 패러다임, 즉 공생적인 시스템을 제안합니다.

데이터 수집과 분석의 자동화뿐만 아니라, 학습 분석 대시보드를 통해 시각화를 자동화하는 것도 가능합니다. 여기서 제안하는 아이디어는 활동 및 이벤트 기반 데이터를 완전히 활용하여 학습자를 실시간으로 360° 뷰로 보여주는 것입니다. 이러한 대시보드는 다음과 같은 개념들을 시각화할 수 있습니다:
• 개별, 코호트, 글로벌 활동의 빈도, 시간, 지속 시간
• 특정 콘텐츠와의 참여 빈도, 시간, 지속 시간
• 활동 수준이나 유형 측면에서의 행위자 또는 콘텐츠의 이상치
• 행위자 간의 관계, 예를 들어 방향성이 있는 네트워크 그래프를 통해 표현
• KPI 또는 비즈니스 목표와 일치하는 개별 또는 코호트 성과
• 학습자의 진전을 지원하기 위한 권장 개입
• 콘텐츠 참여 활동 및 학습 경로의 트렌드
• 코호트 또는 글로벌 그룹과 비교하여 콘텐츠 사용, 참여 유형, 시간 및 지속 시간 측면에서의 행위자 간 유사성 또는 비유사성을 나타내는 이상치

또한, 관련 데이터 포인트가 충분히 축적된 후에는 머신러닝 알고리즘이 일반적인 학습 경로나 다양한 학습자 그룹에 대해 어떤 경로가 더 효과적인지를 파악하는 데 도움을 줄 수 있습니다. 이러한 활동 패턴은 예를 들어, 성공적인 학습자가 특정 교육 콘텐츠에 가장 많은 시간을 소비한 부분을 열지도(heatmap)로 보여주거나, 주어진 학습 객체와 상호작용하면서 나타난 행동 트렌드를 폴라 그래프로 시각화하는 방식으로 표현될 수 있습니다(예: 비디오의 특정 부분을 빠르게 넘기는 행동이나 특정 시점에 시뮬레이션을 중단하는 행동).

학습자에게 이러한 대시보드는 자신의 학습 격차와 능숙도를 시각화하는 데 도움을 주고, 스스로 학습을 관리하기 위한 조치를 취할 수 있도록 지원합니다. 관리자는 이러한 알고리즘을 통해 조직 수준의 계획 문제를 예측하고, 교육 및 인력 전략에 대한 결정을 내리며, 시스템 자체에 대한 점진적인 개선을 제안할 수 있습니다.

궁극적으로, 학습 생태계 내 다양한 “페르소나”—학습자, 강사, 콘텐츠 개발자, 관리자, 정책 입안자—에게 각기 다른 인사이트를 제공하고 데이터를 질의할 수 있는 모듈형 데이터 카드로 구성된 “미션 컨트롤” 대시보드를 제공할 수 있을 것입니다.

“학습은 여정이다”라는 말은 이제 거의 진부한 표현이 되었습니다. 하지만 대부분의 사람들이 이 상투적인 문구를 사용할 때, 실제로는 “물론, 앞으로 새로운 것들을 배우겠지만, 이 수업은 3주 안에 끝나니 그때까지 학습을 마쳐야 한다”라는 뜻일 가능성이 큽니다.

학습 생태계 개념과 개인화된 평생 학습이라는 철학은 출력 중심, 시간 기반 학습에서 탈피하려는 전환을 전제로 합니다. 이는 고위험의 총괄 평가를 특징으로 하는 기존 방식에서 벗어나, 형성적 평가의 지속적인 흐름을 지원하는 과정 중심의 학습 관점으로 나아가는 것을 의미합니다.

이는 학습과 평가에 있어 근본적인 변화를 나타냅니다. 즉, 이산적인 수학적 접근에서 벗어나 연속적인 방정식으로의 전환을 의미합니다.

구현 권장 사항

스트리밍 데이터 분야와 이를 지원하는 능력은 아직 초기 단계에 있으며, 이 장에서 제안된 내용이 미래의 혁신에 의해 능가될 가능성이 큽니다. 그러나 디지털 혁신의 새로운 물결을 도입하기 위한 출발점으로서, 아래 섹션에서는 고려해야 할 실질적인 구현 단계를 제시합니다.

1. 필요 분석과 데이터 평가

대부분의 프로세스와 마찬가지로, 첫 번째 단계는 문제를 정의하는 것입니다. 필요한 결과 데이터를 결정하고, 이미 사용 가능한 데이터의 유형, 품질 및 양을 평가합니다. 다음과 같은 질문을 통해 주요 요소를 파악합니다:

현재 및 과거 데이터 자산의 상태: 현재와 과거의 데이터 자산 및 데이터 생산 소스가 어떤 상태인지 파악합니다. 이는 현재 시스템 내외부의 데이터뿐 아니라, 데이터가 생성되고 제공된 시점, 방식, 위치에 대한 정보를 포함합니다.

현재 데이터 아키텍처와 시스템 설계 상태: 현재 데이터 아키텍처와 시스템 설계 상태를 문서화하며, 과거 버전(있는 경우)의 상태와 사용 이력을 기록합니다. 여기에는 이전 사용 수준과 새 시스템이 처리해야 할 규모에 대한 기대치도 포함됩니다.

위험과 프로토콜: 개인정보 보호, 데이터 관리, 보안 등과 관련된 알려진 위험과 프로토콜을 목록화합니다.

디지털 전환의 목표와 목표: 디지털 전환의 목표와 새로운 시스템이 제공해야 할 메트릭과 인사이트를 정의하기 위해 통합해야 할 데이터 소스를 파악합니다.

일정, 범위, 예산: 전체 시스템 구현을 위한 단계적 접근을 가능하게 하기 위해, 프로젝트의 일정, 범위, 예산을 체계적으로 정리합니다.

2. 데이터 및 시각화 설계

데이터 설계 단계에서 실무자들이 범하는 실수는 종종 과정의 후반부에 가서야 드러납니다. 이러한 오류, 부실한 설계, 기술적 부채의 축적을 줄이기 위해 역방향 접근 방식을 사용하는 것이 유용합니다. 먼저, 핵심 질문을 정의하는 것부터 시작합니다. 동시에, 이러한 질문에 대한 예상 시각화를 그리고, 이를 최종 사용자와 협력하여 구체화합니다. 그런 다음, 이러한 질문에 대한 통찰을 제공할 성과 지표를 식별하고, 이 지표를 뒷받침할 수 있는 데이터 소스가 무엇인지 결정합니다. 이 단계에서 현재 존재하지 않는 데이터 소스도 고려될 수 있습니다.

그 후, 앞서 식별된 가설적 데이터 소스를 통합하여 이상적인 데이터 모델을 설계합니다. 이때, 서로 다른 데이터 소스가 어떻게 상호작용할지, 그리고 다수의 데이터 소스가 추천 작업에 미칠 영향을 신중히 고려해야 합니다. 설계된 데이터 모델의 구성 요소를 채우거나, 최소한 이를 부분적으로라도 충족할 수 있는 기존 데이터 소스를 찾습니다. 이 과정에서 데이터 접근의 제약이나 잠재적 제한 사항 또한 평가되어야 합니다.

마지막으로, 최종 데이터 모델에 맞추어 초기 시각화 목업을 재검토하고 조정합니다.

데이터를 시각화하는 방법에는 여러 가지가 있으며, 설계 시 다양한 요소를 고려해야 합니다. 데이터 스트리밍 속도, 데이터의 구조적 특성, 의미론적 속성(인간 및 기계 판독 가능 여부 포함), 데이터 간 잠재적 상관관계와 잘못된 신호 가능성, 그리고 성과 지표를 보여주기 위한 메트릭 등이 이에 해당합니다. 또한, 시각화는 가능한 한 투명하게 설계되어야 하며, 이를 통해 최종 사용자가 알고리즘에 적절한 신뢰를 형성하고, 시각화된 분석을 기반으로 정보에 입각한 결정을 내릴 수 있어야 합니다.

프라이버시나 데이터 접근 문제와 같은 관련 사항도 설계 단계에서 함께 고려되어야 합니다. 예를 들어, 학습자 프라이버시 규칙과 같은 조직 또는 산업 정책은 강력한 사용자 프로파일 생성 능력을 제한할 수 있습니다. 데이터 희소성은 기존 빅데이터 방법론을 사용한 분석을 방해할 수 있으므로, 데이터 모델과 시각화는 현실적인 데이터 양과 강도에 맞춰 설계되어야 합니다. 최소한의 데이터로도 핵심 성과 지표에 대한 유용한 통찰을 제공할 수 있도록 설계하는 것이 중요합니다.

3. 아키텍처 개발

xAPI 사양을 적용하여 데이터를 캡처하고 저장할 때는 xAPI 프로파일을 사용하는 것이 좋습니다. 필요하다면 기존 프로파일을 사용하거나, 적합한 것이 없을 경우 새로 생성해야 합니다. xAPI 프로파일은 구현에서 허용되는 용어(또는 변수), 그 사용 방식, 의미론적 값을 정의합니다. xAPI 프로파일은 도메인 기반 모델링 구조를 명확히 하여 프로젝트 범위를 정의하고, 사람이 읽기 쉬운 데이터와 생태계 전반에서 탐색 가능한 기계 판독 가능한 데이터를 제공하기 쉽게 만듭니다. 또한 프로파일은 비즈니스 프로세스와 학습 목표를 데이터 모델에 명확히 정렬하는 데 유용한 도구가 될 수 있습니다.

다음으로, 다른 데이터 소스 통합에 관한 선택을 해야 합니다. 일부 학습 데이터 소스는 이미 xAPI 형식으로 제공될 수 있습니다. 이러한 데이터는 보통 학습 기록 저장소(LRS)에서 검증 및 제공됩니다. 표준화된 데이터와 API(xAPI가 제공하는 것처럼)는 데이터 집계를 비교적 용이하게 만듭니다. 그러나 학습 데이터나 비학습 활동(예: 웹 서비스의 직무 워크플로우) 중 일부는 xAPI 명령문으로 기본적으로 구조화되지 않을 수 있습니다. 외부 소스를 xAPI 데이터로 구성하는 방법 중 하나는 API를 사용하는 것입니다. 그러나 모든 데이터를 xAPI 기반 데이터 모델로 강제로 변환하는 것은 적합하지 않을 수 있습니다. 이러한 경우, 이질적인 데이터는 다른 사양으로 모델링하거나, Kafka 스트림 프로세서를 통해 직접 전달되어, 여러 응용 프로그램에서 구독하고 이후 분석에서 다양한 데이터와 결합할 수 있습니다.

네이티브 데이터 형식과 외부 데이터 스트림이 정의되면, 이를 스트리밍 데이터 아키텍처 내에서 구현해야 합니다. 이를 위해 여러 모델을 사용할 수 있지만, 우리는 보통 실시간 학습 생태계를 위한 소프트웨어 아키텍처 패턴으로 Kappa 아키텍처를 추천합니다. 이 패러다임은 모든 데이터를 스트리밍 데이터로 간주하고, 다양한 마이크로서비스가 활용할 수 있도록 이러한 데이터를 스트림으로 처리합니다. 이 접근법은 서로 다른 데이터 형식을 처리하고 유지하는 데 있어 효율적이고 용이한 방법을 제공합니다.

데이터 소스 통합을 고려할 때 사용자 신원 관리가 중요합니다. 신원 관리는 모든 것이 분리되도록 정리되어야 하며, 데이터 아키텍처 설계 시 신원 관리와 관리 프로비저닝 문제는 데이터 유입 시점 가까이에서 처리되는 것이 가장 좋습니다.

스트리밍 아키텍처는 Apache Kafka와 같은 오픈소스 스트림 프로세서를 구현하여 지원할 수 있습니다. 모든 데이터는 Kafka로 유입되어 처리되며 데이터 스트림으로 전송됩니다. 스트림의 데이터는 비즈니스 인텔리전스 도구나 학습 기록 저장소 같은 애플리케이션이 구독하고 필요한 데이터를 인식할 때 복사본을 가져옵니다. 이러한 데이터 흐름은 마이크로서비스를 통해 자동화됩니다.

군대에서의 승진 체계는 잘 알려져 있지만 사용하기 어렵습니다. 누군가의 능력을 평가하는 지점에 도달할 때, 사람들은 평가 기준이 무엇인지, 그리고 그것이 어떻게 수집되고 있는지에 대해 매우 진지해집니다. 그들은 “내가 그 기준을 어떻게 달성할 수 있는가?“를 알고 싶어하며, 평가 기준 수집의 세부 사항에 집중합니다. 만약 승진하지 못한다면, 왜 기준을 충족하지 못했는지에 대한 명확한 설명을 기대합니다. 그들은 신뢰할 수 있는 정보를 원하며, 단순히 기계가 “당신은 승진/추천되지 않았습니다”라고 말하는 것만으로는 충분하지 않습니다. 이는 모두 그들을 올바르게 대우하는 과정의 일부입니다. 인간 성과 평가를 다룰 때는 항상 인간이 개입해야 할 것입니다.

James Robb
Rear Admiral, U.S. Navy (Ret.)
President, the National Training and Simulation Association

마지막으로, 특히 엔터프라이즈 규모의 구현에서는 제3자 SaaS 통합 솔루션 사용을 자제하는 것이 좋습니다. 이러한 서비스는 비용과 라이선스 문제를 유발하고, 처리 속도에 영향을 미치며, 서비스 중단 시 추가적인 부담을 초래할 수 있습니다. 따라서 자체적으로 설계한 네이티브 솔루션이나 데이터 번역 서비스를 사용하는 것이 일반적으로 더 바람직합니다.

4. 배포

네 번째 구현 단계는 배포 환경을 선택하는 것입니다. 스트리밍 데이터를 지원할 수 있는 다양한 상용 및 특수 클라우드 아키텍처가 있습니다. 요구 사항에 따라 엔터프라이즈 SaaS, 가상 사설 클라우드(VPC) 인스턴스 중에서 선택하고, 이를 적절하게 크기 조정할 수 있는 템플릿을 생성하게 될 것입니다. 온프레미스 배포도 옵션이지만, 이는 배포 과정과 지속적인 유지보수에서 복잡성과 비용을 크게 증가시킬 수 있습니다.

대부분의 구현은 알파에서 베타, 그리고 프로덕션 배포로 이어지는 일반적인 패턴을 따릅니다. 알파 배포의 일환으로, 프라이버시 및 보안 프로토콜, 신원 관리 및 관리 프로비저닝, 품질 보증, 지속적 통합 체제와 관련된 문제를 식별하고 해결해야 합니다. 또한 시스템 테스트를 수행해야 합니다. 베타 구현 및 테스트 기간 동안 실제 사용자들과 함께 시스템에 대한 스트레스 테스트를 진행하며, 이를 통해 버그를 식별하고, 최종 사용자와 시스템 유지보수를 담당하는 사람들 모두를 위한 사용자 경험을 개선할 방법을 찾아야 합니다.

5. 프로덕션 구현

프로덕션 구현은 새로운 단계의 시작을 의미합니다. 데이터의 양과 일관성에 따라, 머신 러닝 기술(잠재적으로 딥 러닝 접근법 포함)을 시스템을 통해 흐르는 실제 데이터에 적용할 수 있습니다. 딥 러닝 프로세스는 이 분야에서 혁신을 이끌어낼 가능성을 열어주며, 여기에는 인지 기계 프로세스를 생체 데이터, 의사결정, 이벤트 기반 인간 학습 활동과 연결하는 방법이 포함될 수 있습니다.

그러나 스트리밍 아키텍처의 본질적으로 취약한 특성에 유의해야 합니다. 벤더의 신제품 개발로 인해 엔드포인트가 손상될 수 있습니다. 이러한 문제가 발생하면, 데이터가 정상적으로 흐를 수 있도록 수정해야 합니다. 특히 다른 서비스가 해당 벤더의 데이터를 활용해 작업을 처리하고 있다면, 이러한 중단은 더 큰 시스템에 병목 현상을 유발할 수 있습니다. 이러한 이유로, 스트림 처리 시스템은 반드시 로컬 또는 관리형 서비스 팀에 의해 주기적으로 관리되어야 합니다.

일부 실무자들은 FATE라는 약어를 사용하여 인공지능(AI)에서 공정성(Fairness), 책임(Accountability), 투명성(Transparency), 윤리(Ethics)에 대해 논의합니다.

다행히도, 이러한 수정 작업은 시스템에 데이터를 공급하는 소스의 품질에 대해 충분한 검증을 수행했다면 비교적 간단한 과정입니다. 대부분의 문제는 엔드포인트 변경 또는 API 재구성으로 인해 발생하며, 이는 일반적으로 제품 계획의 일부로 팀에 사전 공유되므로 대부분의 변경 사항은 미리 예고되고 계획할 수 있습니다.

미래 학습 생태계에서 분석 및 데이터 시각화 서비스의 성공에 있어 확장성과 확장 가능성 또한 중요합니다. 학습 도구, 웹 기술, 인공지능의 발전은 미래의 학습 분석 및 데이터 시각화를 변화시킬 가능성이 높습니다. 마찬가지로, 사회적 행동 변화, 학습 접근 방식, 공식 및 비공식 학습자들의 선호도 변화는 활동 데이터 스트림에 캡처된 이벤트의 본질에 영향을 미칠 것입니다. 따라서, 학습 분석 및 데이터 시각화 목적에 사용되는 기술은 가능한 한 유연하고 확장 가능하며 개방적이어야 합니다. 시스템은 어떠한 변화에도 견딜 수 있도록 설계되어야 합니다. 오픈 소스 표준 및 사양에 대한 헌신은 이러한 요구를 충족하는 데 도움을 줄 것입니다.

결론

결론적으로, 분석과 시각화를 통해 얻어진 통찰의 품질은 데이터 모델의 품질, 활용되는 데이터의 속도와 다양성, 그리고 데이터 표현의 정확성에 달려 있습니다. 흔히 말하듯, “거짓말, 새빨간 거짓말, 그리고 통계”라는 말이 있듯이, 통계는 물론이고 인포그래픽과 시각화 또한 잘못 적용될 경우 데이터의 “진실”을 흐리게 만들 수 있습니다. 특히 학습처럼 복잡하고, 개인적이며, 사회적·문화적으로 얽힌 데이터 세트의 경우 이는 더욱 그러합니다.

학습 관리 시스템(LMS)에서는 현재의 아날로그 시스템과 유사한 방식으로 온라인에서 사용할 수 있는 성적표를 확인할 수 있습니다. 하지만 평가 분석의 발전 덕분에, 질문과 시험이 측정하려는 내용을 얼마나 신뢰성 있게 측정하고 있는지 훨씬 더 깊이 분석할 수 있습니다. 질문 은행이 공정하고, 타당하며, 신뢰할 수 있는지 여부를 판단할 수 있습니다. 이러한 분석 결과를 여러 대시보드 보기 형태로 확인할 수 있으며, 궁극적으로는 교육, 국방, 상업, 의료 분야 전반에 걸쳐 통합적으로 확인할 수 있는 가능성도 열려 있습니다.

Stacy Poll
U.S. Public Sector Business Development Manager
Senior Account Manager, Questionmark

결과적으로 데이터의 설계, 알고리즘의 적용, 그리고 시각화의 레이아웃은 매우 중요한 역할을 합니다. 이러한 설계와 개발 단계에서의 작은 결정들이 학습자와 다른 학습 이해관계자들에게 큰 영향을 미치는 결과를 초래할 수 있습니다. 다행히도, 이러한 결과는 긍정적인 방향으로 이어질 가능성도 큽니다.