数据挖掘之Web挖掘和文本挖掘
在分布式信息环境中, 文档或对象通常会相互关联, 从而实现方便访问的特点; 这种基于信息的交互环境涵盖了WWW和在线服务等平台. 用户可以通过特定工具实现对象间的转换功能
-
Web挖掘任务划分为4个任务:
A: 寻找资源,这是一个从Web的多媒体资源中在线或离线检索数据的过程
B: 信息的选择和预处理,在之前的子任务中检索出不同种类的原始数据后,这个子任务负责转换这些是数据
C: 总结,总结是在一个和多个Web站点上自动发现一般模式的过程,使用了不同的通用机器学习技术
D: 分析,这个任务验证和/或解释以挖掘出的模式
有三个因素会影响到用户通过数据挖掘过程来识别和评估Web站点的方式:
A: Web页面的内容 B: Web页面的设计 C: 整个站点的设计,包括它的结构 -
网络内容、网络结构与网络数据分析技术
在网络分析中对特定部分进行提取与分析的方式属于网络数据分析的主要方法之一。网络数据分析主要包含三个方面:网络内容分析、网络结构分析以及网络使用行为分析等具体方向
基于不同数据类型进行分类,网络内容分析主要针对的是网页中的文本信息、图片资料等多样的信息资源
通常情况下,这种分析方式会在搜索相关任务中被应用于搜索相关任务中
同时,在搜索相关任务中也能直接应用
在分析网页间关系时,在信息检索过程中被广泛应用,并可辅助网页内容分析。其显著特征是锚文本,在分类任务中被广泛采用以考虑网页的内容与结构特征。其显著特点在于利用锚文字段进行突出显示功能以增强用户体验,在分类任务中被广泛采用以考虑网页的内容与结构特征。其显著特点在于利用锚文字段进行突出显示功能以增强用户体验
-
HITS和LOGSOM算法
到目前为止,基于索引的Web搜索引擎是用户搜索信息的主要工具
HITS算法的步骤:
A: 取样组分,构建在相关信息中可能经常出现的焦点Web页面集合
B: 权重传播组分,通过一个迭代过程来估计hub页面和权威页面,并且获得最相关、最权威的Web页面子集
在取样阶段,把Web视为一个页面的有向图,HITS算法首先构造子图,在子图中可以搜索hub页面和权威页面,目标是所构建的子图蕴含高相关性、权威性的页面,在构造这样的自图示,先使用查询方法从基于索引的搜索引擎中收集页面的根集
在权威传播阶段,要为基本集合V中的所有页面制定一个具体数字,从基本集合V中提取hub页面和权威页面
6.自组织图谱(SOM)
SOM技术是组织Web页面的最合适的技术,因为他不仅可以将数据点组织到聚类中,而且可以用图表表示聚类之间的关系,该系统首先创建一个Web日志文件,指定表示日期、时间、和所请求Web页面的地址,以及用户计算机的IP地址,数据组合在有意义的事务或会话中,事务通过用户所请求的Web页面集来进行定义
7.挖掘路径遍历模式
在改进公司的Web站点之前,需要顾及它的当前用量,理想情况下,可以根据站点上自动记录的数据来估计
LOGSOM方法关注Web页面的相似性,而其他技术强调用户浏览Web的路径的相似性,捕捉Web环境中的用户访问模式称为挖掘路径遍历模式 -
挖掘遍历模式的两个步骤
A: 第一步开发出一种算法,将日志数据的原始序列转换成一个遍历序列集,每个遍历序列都代表从用户访问起点开始的一个最大的前向引用,注意,此转换步骤要滤掉后向应用的影响,这种后向引用主要是为了便于遍历,归约后的新用户定义的前向路径可以让我们集中精力挖掘有意义的用户访问序列
B: 第二部由确定频繁遍历模式的一个独立算法构成,叫做大引用序列,大引用序列实在日志数据库中出现次数足够的一个序列,在最后阶段,算法根据大引用序列形成最大引用,最大序列是不属于其他任何最大引用序列的大引用序列
9.Page Rank算法
PageRank算法隐含的主要假设是从网页面a到网页面b的每个链接是页面a对页面b的投票,并非所有的投票都是等价的,投票的权重需要按照PageRank对原始站点的评分确定
PageRank基于随机浏览模型,如果某个浏览随机的选择某个开始Web页面,并且在每个时间步中浏览随机的选择当前Web页面的某个链接,则PageRank算法表现为该随机浏览针对任何给定页面的概率,一些Web页面不包含任何超链接,当存在任何没有 超链接的Web页面时,该模型假定随机浏览选择了一个随机Web页面,另外,存在一些情况将导致随机浏览停止跟踪链接并重新开始 -
文本挖掘
两种关键技术使得网络中的文本挖掘变得可行,其中一项是基于互联网的搜索引擎能力,另一项是基于文本分析的方法
自动分析能够实现多种目标:
A: 通过概述大型文档集的内容并进行系统化地整理和归类
B: 揭示文档间的内在关联结构
C: 提高搜索效率以获取相关资料
D: 检测文件副本的存在并提供相关信息
过程主要分为两个阶段:A为提取阶段,采用特定的形式将自由格式的文本文档转换为中介形式;B为抽取阶段,从中介形式中提取模式或知识
潜在语义分析(LSA)是一种广泛应用于自然语言处理领域的技术。其最初开发时关注的是词语在不同上下文环境中所承载的意义,并通过这些意义之间的联系来显著提升了信息检索系统的准确性和效率。该方法基于词语使用的频率统计模型提取文档中的主题信息,并与特征向量分解方法和因子分析技术具有相似性
