contex-aware knowledge tracing——AKT

阅读量：

作为目前较真实且auc较高的的知识追踪模型，来看看它的代码结构，方便你我去实现和修改。原理、创新点请看论文，本文只作代码分析：

目的

AKT在assistment15（0.782）数据上比DKT（0.731）要高很多，同样只使用技能信息的情况下：
我的任务就是看为什么auc高这么多，文章没有具体消融试验，但可以从一部分看出

对技能和交互先encoder一次，在assist15得到5%的提升

使用了衰减机制，在assist15得到5%的提升。
问题出现了，究竟是encoder起的作用，还是衰减机制起的作用。使其达到0.7228

我估计是这里的AKT-NR-pos是相对于AKT-NR-raw的基础上在去掉衰减机制，替换成position embedding。
也可以看到AKT-NR-raw为0.7332，而AKT-NR-pos为0.7271。所以就算CCF-A也不不公平地比较。不是严格按照：每个对比实验只有一个组件不同。

结论：应该是encoder起的作用大一点。

数据集

作者处理成一个样本行数据：（id是连续）

学生id，学生真实索引
题目id
技能id
答对答错
样本以学生为单位，分成训练集，验证集，测试集。（60%，20%，20%）
如果嫌数据量太少，把验证集归到训练集，因为代码要跑验证部分，避免修改结构，把测试集赋给验证集。

main.py 总体

加载数据的类，分DATA和PID_DATA，有的数据集没有技能信息
设置种子数seed
params.train_set，5折交叉验证，有5个训练集
train_q_data, train_qa_data, train_pid = dat.load_data(train_data_path)与DKVMN一样。而DKT不需要seq_len-1（不预测第一题）
best_epoch = train_one_dataset（）训练模型，记录最好的epoch
test_one_dataset（best_epoch ）使用最好的epoch预测测试集

train_one_dataset训练步骤

加载模型，在utils.py文件里，return model = AKT（）
设置optimizer，包括模型参数、学习率
for idx in range(params.max_iter)里面执行train函数。参数包括模型、数据，优化器，超参数
验证集auc提升时，保存模型、优化器。设置提前终止条件。
f_save_log.write（）记录结果

test_one_dataset测试步骤

加载模型及最优epoch的模型参数
执行一次test函数。参数没有优化器
运行完之后又把模型参数给删除

load_data.py

class DATA(object):
其中len(Q[len(Q)-1]) == 0，这一步是怕字符串根据分隔符分割之后，列表的最后一个元素为空字符。如："1,2,3,"这样分割就会出现4个元素。

复制代码

    for lineID, line in enumerate(f_data):
    	记录student_id，第几个学生（样本）
    	记录Q，回答的技能
    	记录A，回答的情况
    	# 处理数据
    	1.一个学生截断成多个学生（题目数多于200道就认为新的样本），这里没有限制样本最小题目数
    	2.答题情况 = 2倍技能数，前半部代表答错，后半部代表答对
    	3.q_dataArray = np.zeros((len(q_data), self.seqlen)) 固定输入数据的大小，有数据的地方就填充，没有就为0
    	4.返回 q_dataArray, qa_dataArray, np.asarray(idx_data)，idx_data是学生的id，模型应该没有用到的，只是用来保证return3个数据。
    	前两个是二维【batch，seq_len】 idx_data是一维【batch】

class PID_DATA(object):
只不过多处理了一行：题目信息

复制代码

    q_data.append(question_sequence) 技能信息
    qa_data.append(answer_sequence) 答题情况
    p_data.append(problem_sequence)  问题信息
    return q_dataArray, qa_dataArray, p_dataArray

run.py

数据值域：id从1开始，0的位置为padding

train函数

Shuffle the data，pid_flag是否有题目信息
数据包括input_q、input_pid、（input_qa、target）同一个，输入网络和训练目标
target = (target - 1) / params.n_question，np.floor(target)，使padding值为-1，非padding值为0或1
loss, pred, true_ct = net（），这里的loss是用来反向传播
nopadding_index = np.flatnonzero(target >= -0.9)，根据索引就能筛选出要的预测值：pred[nopadding_index]
训练完全部数据后对all_pred，all_target计算auc、acc、loss（对全部数据算二值交叉熵）

test函数，区别在于
net.eval()
with torch.no_grad():

self.model = Architecture（）
—Architecture：3个TransformerLayer，（mask=1，qkv=Y，apply_pos=True）（mask=1，qkv=X，apply_pos=False）（mask=0，qk=X，v=Y，apply_pos=True）apply_pos表示有FFN，mask=1，可以看当前，zero_pad=False；mask=0，只能看过去，zero_pad=True。
------TransformerLayer：MultiHeadAttention、LN、Linear
-----------MultiHeadAttention：（kq_same=1，所以QK共用一个Linear映射）self-attention（多头拼接后在通过一层全连接）
---------------self-attention（ Monotonic Attention Mechanism）

self.out = nn.Sequential（3个全连接）
—output拼接question：2*256——>final_fc_dim：512——>256——>1

复制代码

    x=np.triu(np.ones((1, 1, 5, 5)), k=0).astype('uint8')
    [[[[1 1 1 1 1]
       [0 1 1 1 1]
       [0 0 1 1 1]
       [0 0 0 1 1]
       [0 0 0 0 1]]]]
    x=np.triu(np.ones((1, 1, 5, 5)), k=1).astype('uint8')
    [[[[0 1 1 1 1]
       [0 0 1 1 1]
       [0 0 0 1 1]
       [0 0 0 0 1]
       [0 0 0 0 0]]]]

utils.py

get_file_name_identifier函数，模型不同，需要的参数不同，存储的文件名不同。比如：params.model = ‘akt_pid’

load_model函数，根据params.model = ‘akt_pid’，是否带有题目信息，模型根据params.n_pid，是否为题目信息创建Embedding，和对题目信息与技能信息进行拼接。

try_makedirs函数，创建目录os.makedirs(path_)

Monotonic Attention Mechanism

最后，也是最详细地讲一下最有数学功底的部分，怎么修改/调整注意力机制的，因为self-attention的注意力矩阵就是两个矩阵相乘，怎么在这个基础上做文章。

复制代码

    def attention(q, k, v, d_k, mask, dropout, zero_pad, gamma=None):
    """
    This is called by Multi-head atention object to find the values.
    """
    # 这里q，k共享全连接，所以是相同的
    scores = torch.matmul(q, k.transpose(-2, -1)) / \
        math.sqrt(d_k)  # BS, 8, seqlen, seqlen
    bs, head, seqlen = scores.size(0), scores.size(1), scores.size(2)
    # 还没mask的注意力矩阵
    
    x1 = torch.arange(seqlen).expand(seqlen, -1).to(device)
    x2 = x1.transpose(0, 1).contiguous()
    # x2 [[0 0 0]  x1-x2[[0   1 2]
    #     [1 1 1]        [-1  0 1]  
    #     [2 2 2]]       [-2 -1 0]]
    with torch.no_grad():
    	# False的地方（未来信息），赋无穷小
        scores_ = scores.masked_fill(mask == 0, -1e32)
        scores_ = F.softmax(scores_, dim=-1)  # BS,8,seqlen,seqlen
        scores_ = scores_ * mask.float().to(device)
        # scores_ 未来信息已为0
        
        
        distcum_scores = torch.cumsum(scores_, dim=-1)  # bs, 8, sl, sl #cumsum:按维度dim进行累加
        # 红色部分，当前个step，对角线位置，全部权重之和
        disttotal_scores = torch.sum(
            scores_, dim=-1, keepdim=True)  # bs, 8, sl, 1
        # 绝对距离，|t-θ| 蓝色部分
        position_effect = torch.abs(
            x1-x2)[None, None, :, :].type(torch.FloatTensor).to(device)  # 1, 1, seqlen, seqlen
        # bs, 8, sl, sl positive distance
        # disttotal_scores-distcum_scores，绿色部分
        # 假设step=5，观察第2个词时，总和减去前2个词，剩下就是第2个词之后的权重和
        # 语义：观察第2个词，要考虑它之后的词是否重要
        dist_scores = torch.clamp(
            (disttotal_scores-distcum_scores)*position_effect, min=0.)
        # dist_scores 距离计算完成
        dist_scores = dist_scores.sqrt().detach() #切断反向传播
    m = nn.Softplus() #激活函数log（1+e^x)
    gamma = -1. * m(gamma).unsqueeze(0)  # 1,8,1,1
    # Now after do exp(gamma*distance) and then clamp to 1e-5 to 1e5
    total_effect = torch.clamp(torch.clamp(
        (dist_scores*gamma).exp(), min=1e-5), max=1e5)
    # e的-x次方小于1 衰减机制
    scores = scores * total_effect
    	# 怕泄露 在一次mask未来信息
    scores.masked_fill_(mask == 0, -1e32)
    scores = F.softmax(scores, dim=-1)  # BS,8,seqlen,seqlen
    if zero_pad:
    	# 该情况，包括对角线以上为False/0。
    	# 第一行softmax之后就是平均值，非0，要把第一行变为全0
        pad_zero = torch.zeros(bs, head, 1, seqlen).to(device)
        scores = torch.cat([pad_zero, scores[:, :, 1:, :]], dim=2)
    scores = dropout(scores) # dropout在乘以values
    output = torch.matmul(scores, v)
    return output

全部评论 (0)

还没有任何评论哟~

contex-aware knowledge tracing——AKT

作为目前较真实且auc较高的的知识追踪模型，来看看它的代码结构，方便你我去实现和修改。原理、创新点请看论文，本文只作代码分析：目的 AKT在assistment15（0.782）数据上比DKT（0....

Context-Aware Attentive Knowledge Tracing文献笔记

模型思路一个人对某个知识点的掌握或对某个题目的理解都受到其以往做题经验的影响，而且这个影响会随着时间衰退。比如，学生A和B都依次做了（a,b,c,d,e五个题目，A的答题记录是1,0,1,1,1，B...

CIKM-2021 Multi-Factors Aware Dual-Attentional Knowledge Tracing

前言首先说一下自己读这篇文章的感受，通过读文章题目，我们可以得知。这篇文章的主要创新点就在于multifactors和dualattention。文章的思路也很清晰，首先就是介绍多factor是哪些...

【论文翻译|2019TKDE】EKT: Exercise-aware Knowledge Tracing for Student Performance Prediction

文章目录摘要 1引言 2相关工作 2.1认知诊断 3问题概览 5EKT 7结论【注】本文EKT加入练习的文本内容摘要在计算机支持的智能教育中，为学生提供主动的服务如个性化的练习推荐，其基本任务...

Deep Knowledge Tracing

主要内容第一部分论文内容介绍 Abstract 1Introduction 2RelatedWork 2.1贝叶斯知识追踪 2.2其他动态概率模型 2.3循环神经网络 3DeepKnowledgeT...

Tracing Knowledge Instead of Patterns: Stable Knowledge Tracing with Diagnostic Transformer

TracingKnowledgeInsteadofPatterns:StableKnowledgeTracingwithDiagnosticTransformer 基本信息 WWW'23:Procee...

论文阅读笔记1：EKT: Exercise-aware Knowledge Tracing for Student Performance Prediction

该篇论文于2019年在IEEE发表，作者为：QiLiu,ZhenyaHuang,YuYin,EnhongChen,HuiXiong,YuSuandGuopingHu等知识追踪（KnowledgeTr...

代码复现——Exercise-Aware Knowledge Tracing for Student Performance Prediction——1、数据预处理

由于科研要求，本小白需要这篇论文的代码，但是由于大量搜索未果，于是本小白打算复现一下。本文主要讲解模型细节，详细代码见GitHub 通过阅读论文和查阅讲解，对论文有所了解。

代码复现——Exercise-Aware Knowledge Tracing for Student Performance Prediction——2、数据预处理

完整代码见Github 上一篇文章讲解了练习嵌入相关的代码，这篇文章将会讲解学生嵌入相关的代码，编写学生嵌入时遇到了很多难点 1、模型的理解（模型的label是什么） 2、中间层的数据如何进行改变 3...

Knowledge structure enhanced graph representation learning model for attentive knowledge tracing

前言这篇是一篇期刊论文，篇幅较长，且代码不公开。作者所发表的期刊很好，是SCI一区的文章，因此可靠性很强。这篇文章像是我上周分享的一篇文章GIKT的改进，改进点主要有两点：一，缓解图的稀疏性；二，构...

contex-aware knowledge tracing——AKT

目的

数据集

main.py 总体

train_one_dataset训练步骤

test_one_dataset测试步骤

load_data.py

run.py

akt.py

参数部分

嵌入部分

模型部分

utils.py

Monotonic Attention Mechanism

全部评论 (0)

是否确定退出登录?

contex-aware knowledge tracing——AKT

目的

数据集

main.py 总体

train_one_dataset训练步骤

test_one_dataset测试步骤

load_data.py

run.py

akt.py

参数部分

嵌入部分

模型部分

utils.py

Monotonic Attention Mechanism

全部评论 (0)

相关文章推荐

contex-aware knowledge tracing——AKT

Context-Aware Attentive Knowledge Tracing文献笔记

CIKM-2021 Multi-Factors Aware Dual-Attentional Knowledge Tracing

【论文翻译|2019TKDE】EKT: Exercise-aware Knowledge Tracing for Student Performance Prediction

Deep Knowledge Tracing

Tracing Knowledge Instead of Patterns: Stable Knowledge Tracing with Diagnostic Transformer

论文阅读笔记1：EKT: Exercise-aware Knowledge Tracing for Student Performance Prediction

代码复现——Exercise-Aware Knowledge Tracing for Student Performance Prediction——1、数据预处理

代码复现——Exercise-Aware Knowledge Tracing for Student Performance Prediction——2、数据预处理

Knowledge structure enhanced graph representation learning model for attentive knowledge tracing