Advertisement

A Survey of Knowledge Tracing 总结

阅读量:

一,KT任务定义和KT模型的分类

KT任务定义: 给定在线学习系统中的学习交互序列,知识跟踪旨在监测学生在学习过程中的知识状态演变,并预测他们在未来练习中的表现(既要考虑学生成绩预测,也要考虑学生的知识状态)

KT模型:

1.概率模型

2.逻辑模型

3.基于深度学习的模型

变体:1.学习前的个性化建模 2.在学习过程中结合参与和利用辅助信息 3.考虑学习后的遗忘

二,概率模型

1.原始贝叶斯知识追踪(BKT)

BKT是隐马尔可夫模型(含有转移概率和发射概率)

在BKT中,过渡概率有两个学习参数定义:P(T):从未学习状态过渡到学习状态的过程

P(F):遗忘先前掌握知识的概率

发射概率的两个性能参数决定:P(G):即学生在不精通的情况下猜对的概率

P(S):学生在掌握知识后犯的错误概率

P(Ln)是在第n次学习交互中掌握KC的概率,P(Cn+1)是下一次学习交互中正确答案的概率。 P(Ln)是两个概率的和:(1)KC已经被掌握的概率;(2)知识状态转化为掌握状态的概率

2.动态贝叶斯知识追踪(DBKT)(KC之间并不是完全独立的,而是层次性的、密切相关的)

三,逻辑模型

**** 使用学生学习互动中的不同因素来计算学生和KC参数的估计,然后利用逻辑函数将该估计转换为掌握概率的预测

1.学习因素分析

初始知识状态:参数α估计每个学生的初始知识状态;

KCs的容易程度:参数β捕获不同KCs的容易程度;

KCs的学习率:参数γ表示KCs的学习率。

其中σ是sigmoid函数,Si是学生i的协变量,Tj表示KC j上相互作用次数的协变量,Kj是KC j的协变量,p(θ)是正确答案的概率估计。

2.性能因素分析

先前失败:参数f是学生KC的先前失败;

以前的成功:参数s表示学生的KC以前的成功;

KCs的容易程度:参数β表示不同KCs的容易程度,与LFA模型相同

3.知识追踪机

四、基于深度学习的模型

率或逻辑模型很难充分捕捉高复杂性的认知过程。深度学习具有强大的实现非线性和特征提取的能力,使其非常适合于复杂学习过程的建模,特别是当有大量的学习交互数据可用。

基于深度学习的模型由于其端到端学习策略而具有较差的可解释性,这限制了其进一步的适用性,因为可解释性对于KT至关重要。以下五个方面介绍基于深度学习的模型:(1)深度知识追踪,(2)记忆感知知识追踪,(3)练习感知知识追踪,(4)细心知识追踪,(5)基于图的知识追踪。

4.1.深度知识追踪

利用递归神经网络(recurrent neural networks, rnn),对学生的学习过程进行建模。DKT应用rnn来处理随时间推移的学习交互的输入序列,保持隐含包含序列中所有过去元素的历史信息的隐藏状态。隐藏状态的演化是基于之前的知识状态和当前输入学习交互。DKT提供知识状态的高维连续表示,使他们能够更好地模拟复杂的学习过程。一般来说,rnn的变体长短期记忆(LSTM)网络[44]更常用于DKT的实现,通过考虑遗忘使其更加强大。

DKT将每个输入向量xt(学习交互)设置为对应的随机向量,然后将嵌入的学习序列作为rnn的输入,对输出的隐藏状态进行线性映射和激活函数,得到学生的知识状态:

tanh是激活函数,Whs是输入权重,WWhh为循环权值,Wyh为读出权值,bh和by为偏置项。

相对于概率模型和逻辑模型,DKT表现出了优越的性能。然而,DKT也有一些不可避免的缺点。例如,DKT模型缺乏可解释性:很难弄清楚隐藏状态如何代表学生的知识状态,也无法明确地从隐藏状态中确定学生的知识掌握水平,DKT中存在两种违反常识的不合理现象,即(1)它无法重构观察到的输入,(2)预测的知识状态在时间步长上不一致。总的来说,DKT仍然是一个很有前途的KT模型

4.1.1 记忆感知的知识追踪(Memory-aware Knowledge Tracing)

典型模型 Dynamic Key-Value Memory Networks(DKVMN)

KCs和一个称为值矩阵的动态矩阵,通过一段时间的读写操作来存储和更新对相应KCs的掌握

首先定义一个嵌入矩阵,得到练习的嵌入向量kt。然后,通过将练习嵌入的kt与关键向量Mk的内积,得到相关权值wt,然后进行softmax激活:;

DKVMN根据学生的知识掌握程度来预测学生的表现。具体来说,DKVMN通过使用相关权值将值矩阵中所有记忆向量加权和来读取学生对习题rt的掌握程度。然后将阅读内容和输入练习嵌入连接在一起,并传递到一个完全连接的层,以产生一个汇总向量ft,其中包含学生的知识掌握程度和练习的先前难度。此外,通过对总结向量应用另一个具有s型激活函数的全连接层,可以预测学生的表现。

在写操作中,当一个习题完成后,DKVMN根据学生的表现更新他们的知识掌握情况(即值矩阵)。具体来说,学习互动(et;)是首先嵌入一个嵌入矩阵B获得学生的知识增长vt。然后DKVMN计算一个消除矢量eraset vt和决定删除以前的记忆关于消除矢量和相关重量wt。消除后,新的记忆向量是由新知识更新的状态和add向量addt,形成一个erase-followed-by-add机制,允许忘记和加强知识学习过程中掌握

指出DKVMN未能捕捉到学习过程中的长期依赖关系。因此,他们提出了一个顺序键值记忆网络(SKVMN)来结合DKT的循环建模能力和DKVMN的记忆能力的优势。在SKVMN中,使用一种称为hop -LSTM的改进LSTM,根据潜在KCs的相关性在LSTM细胞之间跳跃,直接捕获长期依赖性。在写入过程中,SKVMN在计算新练习的知识增长时,使其能够考虑当前的知识状态,从而得到更合理的结果。

4.1.2 练习意识的知识追踪(Exercise-aware Knowledge Tracing)

课文内容对学生理解练习题(如相似度、难度)有重要意义,提出了练习感知知识追踪(Exercise-aware Knowledge Tracing, EKT)来挖掘练习文本内容对KT的潜在价值

4.1.3 注意力机制知识追踪(AKT)

一种情境感知的专注知识追踪(AKT)模型,将自我注意机制与心理测量模型相结合。AKT包括四个模块:基于Rasch模型的嵌入、练习编码器、知识编码器和知识检索器。利用心理测量学中的Rasch模型[59]构建练习和KCs的嵌入。AKT包括四个模块:基于Rasch模型的嵌入、练习编码器、知识编码器和知识检索器。

利用心理测量学中的Rasch模型构建练习和KCs的嵌入

输入为练习嵌入{{e_{1},...,e_{t}}},输出是一系列上下文感知的练习嵌入{eilde{{1}},...,eilde{{t}}}

AKT 设计了一种单调注意机制来完成上述过程,其中每个练习的上下文感知嵌入既依赖于自身,也依赖于之前的练习,即eilde{{t}}=f{enc_{1}}。知识编码器采用练习答案嵌入{{y_{1},...,y_{t}}}作为输入,{yilde{{1}},...,yilde{{t}}}作为输出使用相同的单调注意机制;这些也有学生对当前练习和先前练习的答案决定即yilde{{t}}=f{enc_{1}}

最后知识检索器将上下文感知的练习嵌入e_{1:t}和练习答案对嵌入yilde{_{1:t}}作为输入,兵书当前练习检索到的知识状态h_{t}

由于学生当前的知识状态取决于对相关练习的回答,因此它在AKT中也是情境化的。AKT中提出的新的单调注意机制是基于这样的假设:学习过程是暂时的,学生的知识会随着时间的推移而衰减。因此,原Transformer中使用的缩放内积注意机制不适合KT任务。AKT使用指数衰减和上下文感知的相对距离度量来计算注意力权重。最后,AKT在预测学生未来答案方面取得了突出的成绩,并且由于心理测量模型的结合而展示了可解释性。

PS:Pandey和Srivastava[60]提出了一种关系感知的知识追踪自我注意模型(RKT),该模型利用语境信息来增强自我注意机制。

RKT定义了一个叫做关系系数的概念来捕捉练习之间的关系,这是通过对练习的文本内容和学生的遗忘行为分别建模而得到的。然后将上下文练习表征馈送到自注意层以跟踪学生的知识状态

4.1.4 基于图的知识追踪(Graph-based Knowledge Tracing)

图表示一种数据结构,它对一组对象(节点)及其关系(边)进行建模。

提出了基于图的知识跟踪(GKT),它将知识中心的潜在图结构概念化为图G = (V,E),其中节点V={v_{1},v_{2}...,v_{N}}代表KCs的集合,Eubseteq Vimes V代表这些KCs的关系,h^{t}={h^{t}_{in V}}代表学生在时间t回答问题后的知识状态。基于图的知识跟踪体系结构由三部分组成:(1)聚合,(2)更新,(3)预测;

聚合

a^{t}表示时间步长t正确或者错误回答的练习,Es是代表学习交互的嵌入矩阵,Ee是KC嵌入矩阵

更新

在更新模块中,GKT根据聚合的特征和知识图结构更新时态知识状态,如下所示:

f_{self}是多层感知器,G_{ea}是DKVMN中使用相同的擦除后添加机制,G_{gru}是门控循环单元,f_{neighbor}基于知识图结构定义了信息像向相邻节点的传播。

在预测模块中,GKT根据更新后的时间知识状态,预测学生下一时间步的表现:;

相继提出了基于结构的知识追踪(structure-based knowledge tracing, SKT),旨在捕捉知识结构中的多重关系,对概念之间的影响传播进行建模。SKT的主要动因是一种教育理论——知识转移[。该理论认为,由于知识中心之间存在潜在的知识结构,学生在对特定知识中心进行练习时,对某些相关知识中心的知识状态也会发生变化。SKT提出了同步和部分传播方法来分别表征KCs之间的无向和有向关系。AGKT (automatic graph -based knowledge Tracing),利用自动图自动测量学生的知识状态,无需标注人工标注。

5.知识追踪模型的变体

目前基本的KT模型分为三类进行分类和回顾:(1)在学习前建模个性化,(2)在学习过程中结合参与和利用辅助信息,(3)在学习后考虑遗忘。

5.1学习前的个性化建模

KT任务中的个性化是指不同的学生往往具有不同的学习特征(即不同的学习率或先验知识)

5.1.1 BKT中的个性化模型

手段一:聚类 通过将学生聚类为K组,我们可以训练K个不同的KT模型,并对测试数据进行预测。然后将聚类K的数量从K - 1变化到1,并迭代地重复预测过程,最后可以得到一组K个不同的预测(均匀平均,加权平均)

手段二:添加个性化因素

5.1.2 DKT中的个性化模型

DKT -DSC中K-means聚类算法在每个时间间隔将能力水平相近的学生分成同一组,在学习了所有K个聚类的质心后,每个学生被分配到最近的聚类。通过动态的学生聚类,DKT- dsc为实现DKT的个性化提供了有效的途径;

卷积知识追踪模型(CKT)来隐式测量学生的个性化,CKT考虑了影响学生个性化的两个因素:个性化学习率和个性化先验知识。个性化学习率反映了学生吸收知识的不同能力。学生学习互动的顺序可以反映不同的学习速度,通过在卷积神经网络的滑动窗口内同时处理多个连续学习交互来评估学习率的差异是合理的。另外,个性化的先验知识是指学生的先验知识,可以通过学生的历史学习互动来评估;

5.2在学习过程中融入参与

5.2.1BKT的测信息(side information)

学生的初始反应时间,导师干预

5.3在学习后考虑遗忘

5.3.1考虑BKT中的遗忘

BKT-forget模型只能考虑几天发生的遗忘程度,后来将遗忘纳入了BKT,利用指数衰减函数跟新知识掌握水平

5.3.2考虑PFA中的遗忘

PFAE(PEA/Extend)这是PFA模型的一种变体,将PFA与Elo评级系统的某些方面相结合[100]。Elo评级系统最初是为国际象棋评级而设计的(基于比赛结果评估玩家的技能)

5.3.3考虑DKT中的遗忘

DKTforget模型将遗忘引入到DKT中,该模型考虑了三种与遗忘相关的侧信息:(1)重复时间间隔,表示当前交互与前一次交互与相同KC之间的间隔时间;(2)序列时间间隔,表示当前交互与前一次交互之间的间隔时间;(3)过去尝试次数,表示学生尝试使用相同KC进行练习的次数。所有这三个特征都以og _{2}尺度离散化。这些侧信息被连接为附加信息,并表示为多热向量c_{t},与学习交互的嵌入向量v_{t}集成

6.数据集

全部评论 (0)

还没有任何评论哟~