论文笔记:REV2: Fraudulent User Prediction in Rating Platforms
REV2: Fraudulent User Prediction in Rating Platforms
目录
REV2: Fraudulent User Prediction in Rating Platforms
摘要
介绍
Rev2公式
实验结果
摘要
Rating platforms能够获取大规模的items(商品或者其他用户)用户评价。然而,Fraudulent User(欺诈型用户)会因为金钱交易提供虚假的评论。本文提出一种欺诈型用户识别系统:REV2。作者提出三种相互依赖的度量属性:用户公正性、评价可靠性以及产品优劣性。直观地说,如果用户提供了接近产品优劣性分数的评价分数,那么他就是公平的。文中使用六个原理来建立分数之间得依赖性,解决cold start problem并加入了behavior properties。REV2在五个数据集上表现比现有的九个算法好。
介绍
本文旨在识别那些利用虚假评论牟利的Fraudulent User,这项任务的难点在于缺乏训练labels、正常用户和欺诈型用户样本比例不均衡、以及存在有伪装的欺诈型用户。
作者给出三个公式来计算用户的可信度、评论的可信度以及产品的优劣性。模型使用双向传播的图结构来模拟用户对产品的评价过程。举个例子,在Amazon平台上,假设一个用户
给产品
评价为
。每个用户
有一个数值未知的公正属性
,每一个产品
都有一个数值未知的优劣属性
,每一个评价
有一个数值未知的可靠属性
。直观上讲,一个公正的用户(
)数值高)应该给出评价分数(
)接近产品的优劣性分数(
),并且优秀的商品(
数值高)应该有很多可靠性很高的好评价(
高)。
Cold Strat Problem:起始阶段用户的公正性和产品的优劣性都是不确定的。为了解决这个问题,作者加入Laplace smoothing(包含默认的先验置信度)。
Behavior Properties:实体的行为往往能反映其真实的属性。例如,快速或定期评级行为是欺诈性实体(例如假账户,密码和机器人)的典型行为。同样,虚假评论通常文本较短,产品短时间内突然收到非常多的评论也极有可能是虚假评级行为。
考虑以上这些因素,作者提出Rev2公式和一种迭代算法来计算所有实体的公正性分数(
)、优劣性分数(
)和可靠性分数(
)。Rev2在缺少训练样本labels的时候为无监督模式,此外还有监督模式。
Rev2公式
文中利用一个双向传播的网络来模拟评价过程(directed bipartite rating networks),每一条评价都是由用户
开始到产品
。作者提出了六个公理来描述
、
、
之间的内在联系以及满足公理的得分计算公式。
网络假设条件:
:双向的权重图,
提供
评价
。
:代表用户对产品的评价分数
:代表用户
给出的一组评价
:代表产品
收到的一系列评价
定理1(Identical ratings egonetworks):
如果两个用户
和
,有
且存在映射
使
,则说明用户
和
具有相同的ratings egonetworks。
定理2(Identically reliable egonetworks):
如果两个用户
和
,有
且存在映射
使
,则说明用户
和
具有相同的reliabile egonetworks。
公理1(Better products get higher ratings):
如果两个产品
和
具有相同的reliabile egonetworks,并且对于一个产品,所有评分得分都较高,则该产品的质量更高。 公式上,对于两个产品
和
具有一对一的映射h使得
且
,则
。
公理2(Better products get more reliable positive ratings):
如果两个产品
和
具有相同的ratings egonetworks, 对第一个产品,所有的正面评价较第二个产品都更可靠且负面评价更第二个产品更不可靠,那么第一个产品的质量更好。(具体公式表达省略)
公理3(Reliable ratings are closer to goodness scores):
对于两个同样公平的用户的评分,评分接近产品的优劣性分数的评分具有更高的可靠性。(原文goodness应该是打错了)
公理4(Reliable ratings are given by fairer users):
对于商品质量相等的两个相同评级,由更公平的用户给出的评价具有较高的可靠性。该公理结合了用户的可靠性分数。 这样,产品收到的相同评分可能会具有不同的可靠性评分。
公理5(Fairer users give more reliable ratings):
对于两个具有相同评分等级的用户,如果一个用户的所有评分都比另一个用户具有更高的可靠性,那么它的公平性也更高。
这里文章给出了一个例子,演示在三个产品和六个用户中如何计算分数,具体流程参见论文中axiom 5部分。

公理6:
对于具有相同的reliabile egonetworks的两个用户,行为得分较高的用户具有较高的公平性。同理可推至评价和产品。
接下来作者开始逐步的提出公式来计算用户公正性分数
、产品优劣性分数
、评论可靠性分数
,对于公式逐步修改的过程不做赘述,感兴趣的同学可以参考原文的section3.2,这里直接给出最后的完整公式:

关于Cold Start Problem和Behavioral Properties已在公式中做出标注,总计参数7个参数
。
整个Rev2算法流程如下:

实验结果
数据库:Flipkart、Bitcoin OTC、Bitcoin Alpha、Epinions、Amazon
无监督模式 实验结果:

监督模式 实验结果:

作者总共做了五个实验,分别测试了Rev2算法在无监督模式、监督模式的性能,以及算法鲁棒性和cold start、behavior加入网络的重要性,最后证明Rev2算法的linear scalability。
附:
关于Rev2算法的复现内容将在下一篇博客中介绍,论文中给出的代码问题较多,我会上传修改之后便于运行测试的代码。
