Advertisement

论文笔记:REV2: Fraudulent User Prediction in Rating Platforms

阅读量:

REV2: Fraudulent User Prediction in Rating Platforms

目录

REV2: Fraudulent User Prediction in Rating Platforms

摘要

介绍

Rev2公式

实验结果


摘要

Rating platforms能够获取大规模的items(商品或者其他用户)用户评价。然而,Fraudulent User(欺诈型用户)会因为金钱交易提供虚假的评论。本文提出一种欺诈型用户识别系统:REV2。作者提出三种相互依赖的度量属性:用户公正性、评价可靠性以及产品优劣性。直观地说,如果用户提供了接近产品优劣性分数的评价分数,那么他就是公平的。文中使用六个原理来建立分数之间得依赖性,解决cold start problem并加入了behavior properties。REV2在五个数据集上表现比现有的九个算法好。

介绍

本文旨在识别那些利用虚假评论牟利的Fraudulent User,这项任务的难点在于缺乏训练labels、正常用户和欺诈型用户样本比例不均衡、以及存在有伪装的欺诈型用户。

作者给出三个公式来计算用户的可信度、评论的可信度以及产品的优劣性。模型使用双向传播的图结构来模拟用户对产品的评价过程。举个例子,在Amazon平台上,假设一个用户u给产品p评价为。每个用户u有一个数值未知的公正属性F,每一个产品p都有一个数值未知的优劣属性G,每一个评价有一个数值未知的可靠属性R。直观上讲,一个公正的用户(F)数值高)应该给出评价分数(R)接近产品的优劣性分数(G),并且优秀的商品(G数值高)应该有很多可靠性很高的好评价(R高)。

Cold Strat Problem:起始阶段用户的公正性和产品的优劣性都是不确定的。为了解决这个问题,作者加入Laplace smoothing(包含默认的先验置信度)。

Behavior Properties:实体的行为往往能反映其真实的属性。例如,快速或定期评级行为是欺诈性实体(例如假账户,密码和机器人)的典型行为。同样,虚假评论通常文本较短,产品短时间内突然收到非常多的评论也极有可能是虚假评级行为。

考虑以上这些因素,作者提出Rev2公式和一种迭代算法来计算所有实体的公正性分数(F)、优劣性分数(G)和可靠性分数(R)。Rev2在缺少训练样本labels的时候为无监督模式,此外还有监督模式。

Rev2公式

文中利用一个双向传播的网络来模拟评价过程(directed bipartite rating networks),每一条评价都是由用户u开始到产品p。作者提出了六个公理来描述FGR之间的内在联系以及满足公理的得分计算公式。

网络假设条件:
G=:双向的权重图,un U提供pn P评价n R
scoren :代表用户对产品的评价分数
Out:代表用户u给出的一组评价 In:代表产品p收到的一系列评价

定理1(Identical ratings egonetworks):

如果两个用户u_1u_2,有|Out|=|Out|且存在映射h使score=score,则说明用户u_1u_2具有相同的ratings egonetworks。

定理2(Identically reliable egonetworks):

如果两个用户u_1u_2,有|Out|=|Out|且存在映射h使reliability=reliability,则说明用户u_1u_2具有相同的reliabile egonetworks。

公理1(Better products get higher ratings):

如果两个产品p_1p_2具有相同的reliabile egonetworks,并且对于一个产品,所有评分得分都较高,则该产品的质量更高。 公式上,对于两个产品p_1p_2具有一对一的映射h使得R=R,p_2score=acore,p_2,则Ge G

公理2(Better products get more reliable positive ratings):

如果两个产品p_1p_2具有相同的ratings egonetworks, 对第一个产品,所有的正面评价较第二个产品都更可靠且负面评价更第二个产品更不可靠,那么第一个产品的质量更好。(具体公式表达省略)

公理3(Reliable ratings are closer to goodness scores):

对于两个同样公平的用户的评分,评分接近产品的优劣性分数的评分具有更高的可靠性。(原文goodness应该是打错了)

公理4(Reliable ratings are given by fairer users):

对于商品质量相等的两个相同评级,由更公平的用户给出的评价具有较高的可靠性。该公理结合了用户的可靠性分数。 这样,产品收到的相同评分可能会具有不同的可靠性评分。

公理5(Fairer users give more reliable ratings):

对于两个具有相同评分等级的用户,如果一个用户的所有评分都比另一个用户具有更高的可靠性,那么它的公平性也更高。

这里文章给出了一个例子,演示在三个产品和六个用户中如何计算分数,具体流程参见论文中axiom 5部分。

公理6:

对于具有相同的reliabile egonetworks的两个用户,行为得分较高的用户具有较高的公平性。同理可推至评价和产品。

接下来作者开始逐步的提出公式来计算用户公正性分数F、产品优劣性分数G、评论可靠性分数R,对于公式逐步修改的过程不做赘述,感兴趣的同学可以参考原文的section3.2,这里直接给出最后的完整公式:

关于Cold Start Problem和Behavioral Properties已在公式中做出标注,总计参数7个参数lpha_1, lpha_2, eta_1, eta_2, amma_1, amma_2,amma_3

整个Rev2算法流程如下:

实验结果

数据库:Flipkart、Bitcoin OTC、Bitcoin Alpha、Epinions、Amazon

无监督模式 实验结果:

监督模式 实验结果:

作者总共做了五个实验,分别测试了Rev2算法在无监督模式、监督模式的性能,以及算法鲁棒性和cold start、behavior加入网络的重要性,最后证明Rev2算法的linear scalability。

附:

关于Rev2算法的复现内容将在下一篇博客中介绍,论文中给出的代码问题较多,我会上传修改之后便于运行测试的代码。

全部评论 (0)

还没有任何评论哟~