大数据之路——数据挖掘
七、数据技术篇—— 数据挖掘
-
-
7.1 数据挖掘算法平台
-
7.2 数据挖掘中台体系
-
- 7.2.1 挖掘数据中台
- 7.2.2 挖掘算法中台
-
7.3 数据挖掘案例
-
- 7.3.1 用户画像
- 7.3.2 反作弊
-
数据挖掘技术依仗数据仓储与计算技术的发展而相互支撑;
企业级的数据挖掘体系主要包含两大核心模块:
- 基于并行计算框架构建的机器学习算法平台;
- 企业的数据资产管理体系。
7.1 数据挖掘算法平台
该技术体系集成了众多优质分布式算法,并涵盖的数据处理相关技术以及机器学习相关方法,在训练大规模样本时具有重要地位(在训练大规模样本时具有重要地位的高维特征向量构建基础 )。能够快速处理海量及高维度的数据
MPI是一种基于消息传递的并行计算框架,没有IO操作。

7.2 数据挖掘中台体系
整合多种通用技术构建中台技术架构,并通过云计算服务实现统一且高效的业务运营模式;同时通过智能调度算法优化资源配置效率,在提升系统性能的同时显著降低了业务响应时间
进行一次数据挖掘的过程中:首先进行商业理解分析->接着完成数据预处理->然后进行特征提取环节->随后构建机器学习模型->接着对模型进行验证->随后安排该模型的上线步骤->最后在实际运行中使用该模型,并收集效果反馈结果。
数据挖掘的商业场景
- 单一实例学习技术主要聚焦于基于单一实例的学习问题,在此过程中通过对样本数据的学习和归纳总结实现特定目标的任务。
- 多体关联性研究旨在探索不同实体之间的互动模式与联系特性,并通过网络化的方法深入揭示这种复杂性。
数据挖掘技术要素
- 对于数据而言,则既是其根源也是其最终载体形式。
- 对于算法来说,则可被视为一种核心结构, 负责相应的信息处理任务。
7.2.1 挖掘数据中台

- 基础层 Featural Data Mining Layer(FDM)。用于记录训练数据中用于建模的数据特征指标,在此阶段进行统一的数据清洗与去噪处理。
- 个体分析层 Individual Data Mining Layer(IDM)。专注于对单个样本进行深入挖掘的场景下所生成的一般性较强的分析结果。
- 关联分析层 Relational Data Mining Layer(RDM)。主要针对基于关系型数据的挖掘场景,在此过程中生成具有普遍适用性的结果数据集。
- 个体分析层 Individual Data Mining Layer(IDM)。专注于对单个样本进行深入挖掘的场景下所生成的一般性较强的分析结果。
应用层* Application-focused Data Mining Layer (AD)。该系统沉淀那些具有个性化和应用导向的数据挖掘指标,并经过深度加工处理以提升其适用性和有效性。
7.2.2 挖掘算法中台
核心挑战在于将算法理论与实际业务场景进行有效结合。期待能够开发出一套与之相仿的系统化方法论框架以及完整的实操指导手册。
个体挖掘 :消费者画像与业务指标预测 比较有代表性
关系挖掘 :相似关系和竞争关系
7.3 数据挖掘案例
7.3.1 用户画像
背景 :传统获取用户反馈信息耗时长、结果缺失
转折点 :大数据环境,能快速获取海量用户行为并精确分析人群偏好
什么是用户画像 :为用户打上各种标签,如年龄、性别、职业、商品类别偏好等
分类 :基础属性、购物偏好、社交关系、财富属性
用户标签如何基于全域数据产出?女装风格偏好为例
- 如何确定女装的不同风格?首先从女装行业的商品标题中提取文本内容,并通过分词技术(使用TF-IDF方法去除无关词汇)来构建 ** 女装描述词库 **。
- 当某个商品已包含某一特定.style 样式时,则可以通过比较词库中的关键词与该商品的描述来筛选出相关联的.style 样式信息,并生成相应的 ** 女装样式词库 **。
- 通过无监督学习算法(如LDA)分析得出 ** 一种样式所包含的关键词语及其重要性程度 **。
- 通过分析用户的浏览记录、搜索查询以及放入购物车的商品等行为数据来确定不同.style 元素的具体构成情况。
- 基于上述分析结果选择最合适的candidate 进行推荐。
7.3.2 反作弊
反作弊的使用方面
- 账户/资金安全与网络欺诈防控:涵盖账号安全防护体系及网络诈骗防范策略的研究与实践。
- 非人行为和账户识别:基于智能算法的异常行为检测及身份认证机制开发。
- 虚假订单与信用炒作识别:建立假订单特征提取模型及信用泡沫监测系统。
- 广告推广与APP安装反作弊:设计商业推广模式下的APP安装防作弊措施。
- UGC恶意信息检测:构建UGC内容审核机制及恶意信息识别系统
反作弊方法
遵循业务规则的方法具有高的准确性和良好的可解释性,并能有效识别传统作弊手段。
采用有监督学习的方法具备广泛的适用性和较高的准确性,在样本标注方面投入的人力资源有限;然而缺乏对模型行为的深入解析能力,并且容易出现误判。
采用无监督学习的方法具备出色的数据自适应能力,并能在不依赖人工干预的情况下完成任务;但其依赖于复杂的特征设计与提取过程。
涉及多媒体数据处理的相关技术在多个领域均有应用;
图计算模型的应用领域广泛且具有独特的分析优势
反作弊分类
- 非实时反作弊系统通过分析历史数据及业务规则来预测未来的异常操作。其优势在于检测精度高且数据样本越大准确性越高;但其局限性在于无法及时应对新场景
- 在保证基本准确性和覆盖范围的前提下 采用计算速度快的数据处理模块以实现实时监控功能
挑战
- 多种多样的作弊手段及其变化莫测的表现形式
- 算法在时效性和精准度方面的显著特征
- 数据与作弊手段之间的沉淀关系及其逆向反馈机制
