Web数据挖掘
Web挖掘主要通过数据挖掘技术在互联网相关数据中识别隐藏的信息和有价值的见解。这些研究领域涵盖了数据库技术、互联网信息检索技术以及统计分析方法,并结合人工智能中的机器学习和神经网络等技术展开深入探索。
Web挖掘流程
相较于传统的数据库或数据仓库,“Web 上的信息是非结构化或半结构化的、动态的,并且容易产生混淆”,因此难以直接基于Web 网页上的非结构化或半结构化信息执行数据分析任务。为了实现有效的知识发现,“典型 Web 挖掘流程通常需要包含预处理步骤[3]”。
该任务旨在从目标Web文档中提取所需信息。值得注意的是,并非所有信息资源都局限于在线Web文档;它们还可能包括电子邮件文件、电子文件、新闻组等其他形式的数据来源。此外,在线资源还可以扩展至网站的日志记录以及通过Web平台形成的交易型数据库中的数据等多种类型。
2.信息选择和预处理:该流程旨在从获取的Web资源中去除非必要信息并对其实施必要的处理工作。具体而言,在分析Web文档时会自动删除广告链接,在清理多余的格式标记后能够识别出关键段落或字段内容,并将其系统地分类整理以形成一个结构化的数据集合或是数据库表。
3.模式发现:无需人工干预的模式识别。该系统可通过同一站点内部或跨站平台完成分析工作
4.模式分析:对生成的前一阶段所产生之模式进行验证及详细阐述过程。该过程可由计算机系统自动处理也可通过人工干预进行分析
Web挖掘作为一个完整的体系,在进行挖掘之前的信息获取IR(Information Retrieval)与信息抽取IE(Information Extraction)相当关键。其中信息获取(IR)的主要任务是获取相关网页内容,并将这些数据视为未排序的词组集合;而信息抽取(IE)则侧重于从文档中提取所需的具体数据项,并关注文档结构及其内涵的意义理解。其重要职责便是对收集到的数据进行系统整理并建立适当的索引系统以提高检索效率
信息获取(IR)与信息抽取(IE)技术的研究已有相当长的一段时间,在伴随着Web技术的进步过程中逐渐成为研究热点。由于Web数据规模极为庞大,并且可能随时发生变化的特点,在传统的人工信息收集方式已经难以应对挑战的情况下,在线自动或半自动的信息处理方法正逐步成为主流研究方向。在Web环境下需同时处理非结构化文档以及半结构化数据,在过去几年里这两领域都取得了显著的研究成果及其实际应用效果,在搜索引擎领域表现尤为突出并获得了广泛认可。
Web挖掘分类及各自的研究现状及发展
按照用户对Web数据的不同关注程度, Web挖掘通常可分为三大类: 基于网络内容的分析(即为Web内容挖掘, 即为 Web Content mining)、 基于网页结构的数据分析(即为 Web结构挖掘, 即为 Web structure mining)、 基于用户行为的数据分析(即为 Web 用法挖掘, 即为 Web usage Mining)。
1、Web内容挖掘:
从WWW、FTP、Telnet等服务及数据源中提取有价值的信息。互联网 services and data sources的多样性使得 Web 上的信息种类繁多。如今支持的数据类型更加丰富,并且可以通过多种端口访问这些资源:例如政府信息服务系统、数字图书馆数据库以及电子商务平台等。在 Web 中进行信息挖掘的对象不仅限于结构化数据(如文本),还包括图像、音频、视频等多种非结构化媒体类型以及散乱分布的各种数据库。其中针对无组织文本的 Web 数据挖掘属于知识发现领域(Knowledge Discovery in Databases, KDD),也被称为文本数据挖掘或文本挖掘技术,并且是 Web 智能技术研究中的一个重要分支领域,在学术界引起了广泛关注。近年来对 Web 多imedia 数据挖掘的研究逐渐成为研究的重点领域之一
Web 内容挖掘主要从两个主要的研究方向展开探讨。基于信息检索系统的观点来看, Web 内容挖掘的任务旨在为用户提供高质量的数据服务,以便其能够有效筛选出所需的信息并排除冗余内容。而从数据库角度来看, Web 内容挖掘的主要目标是通过整合和建模Web上的海量数据,从而支持复杂的Web数据查询操作。
1.1从资源查找(Information Retrival)的观点挖掘非结构化文档:
非结构化的电子文档主要指Web上自由流通的文字内容, 包括小说、新闻报道等信息资源. 在这一领域中, 相关研究已取得一定成果, 大部分研究都是基于词袋模型(bag of words)或向量表示法(vector representation)的基础上展开的. 该方法将每个单词视为文档集合中的一个属性特征, 并从统计角度对词项进行分析, 却忽视了词项在文本中的位置及其上下文环境的影响. 属性特征通常采用二值型表示, 表示该词是否出现在给定文档中; 或采用频率型表示, 表示该词在文档中的出现频率. 此外, 还可考虑选择终结符、标点符号及不常用词汇作为属性特征. 然而, 词袋模型的一个显著缺点是无法有效处理大规模的自由文本数据, 因为其词汇量巨大且分布广泛. 为了解决这一问题, 研究者们提出了多种解决方案: 如基于信息论的信息增益率(information gain ratio)、交叉熵(cross-entropy)及差异比(discrepancy ratio)等指标技术. 这些方法的目标在于减少属性特征的数量. 另外一种有意义的研究方向是潜在语义索引技术(Latent Semantic Indexing technology),它通过分析多篇文献中共同的主题相关联的关键词组, 发现它们之间的深层联系并提取共享根概念来替代原有单词表征形式. 这种方法能够有效降低词项空间维度
值得注意的是,在这种技术应用中,“informing”、“information”、“informer”、“informed”这些近义词均可被其共同根词“inform”的形式所替代表征. 这种替代方式不仅简化了词项空间规模, 而且也提高了信息检索系统的性能
其他属性表达方式涉及词汇在文档中的位置信息、语义层次关系以及短语的组合方式等维度,并且当前尚无明确证据表明某一种表达方式显著优于其他。
用资源查找(Information Retrival)的观点挖掘半结构化文档:
相较于非结构化数据而言,在Web上对带有HTML、超链接等附加结构的文档进行挖掘。其应用主要体现在对超链接文本进行分类、聚类分析以及揭示文档间的关联性,并从中提炼出半结构化文档中的模式与规则。
1.2从数据库(Database)的观点挖掘非结构化文档:
数据库技术在Web挖掘中的应用主要用于解决Web信息管理与查询的问题。这些管理与查询问题主要可分为三类:一是对Web信息进行建模及检索过程;二是对数据进行提取并构建知识体系;三是构建或重构网页结构。
从数据库的角度来看
数据库观点主要采用OEM模型将半结构化的数据转化为标识图的形式。在OEM架构中,每个对象都具有唯一的对象标识符(OID)和属性值。这些属性值可能为基本类型或复合类型,并且后者通过引用集合的形式连接到其他相关对象。该方法特别适用于处理大规模Web数据,在实际应用中往往集中精力优化单一层次的结构化数据处理工作。与此同时,为了满足复杂需求,在设计阶段可构建多层数据库体系(MLDB),每一层均基于下一层的概括与提炼。这种多层次架构能够有效支持特定领域的特殊查询需求,并为此类场景进行了深入的技术研究与优化方案设计
基于数据库的观点下数据的表示具有独特性,在这种架构中不仅包含层次化结构的数据还涉及图形化表示的内容因此,在扁平化处理的基础上的数据挖掘技术往往难以直接应用于这种复杂的数据架构已经有关于多层数据库挖掘算法的研究进展
2、Web结构挖掘:
Web结构挖掘的核心内容是Web自身的超链接网络。对于给定的一组特定网页,
我们可以通过算法揭示其内在联系并提取有用信息;其中不同网页之间的超链接
表征了包含关系(即一个网页可能包含另一个网页的内容)、引用关系(即某个
网页可能作为其他网页的参考资料)以及从属关系(即某个网页可能隶属于另一个
网页)。特别值得注意的是,在这种网络中,
引用型网页对目标网页提供的说明通常具有客观性、概括性和准确性更高的特点。
Web 结构挖掘在一定程度上基于社会网络与引用分析领域的研究。通过将网页之间的关系划分为 incoming 链接与 outgoing 链接,并利用 引用分析方法识别出 内部链接与 外部链接的关系。在 Web 结构挖掘领域 中具有核心地位的是 HITS 算法与 PageRank 算法。这些算法的核心在于通过特定的方法评估 网页间 超连接的质量,并由此确定 网页的重要性评分。例如, Clever 搜索引擎及 Google 搜索引擎均采用了此类技术。
此外,在Web数据仓库环境下进行结构挖掘的另一个探索尝试是:通过对服务器内部数据完整性进行评估,并比较不同Web数据仓库中的副本情况以辅助定位镜像站点;基于对特定领域层次结构属性的研究,并探讨这种信息流动对Web站点架构的影响。
3、Web用法挖掘(Web usage Mining):
在新兴的电子商务领域中,Web使用日志分析技术发挥着重要的作用。通过对相关Web访问日志数据进行分析研究,能够识别用户的访问行为模式,并帮助我们了解用户的忠诚度、兴趣偏好以及满意度情况。这些信息不仅有助于提升用户体验和站点服务质量,在潜在客户识别方面也具有重要意义。
首先,在实际应用场景中,我们通常需要处理的数据不仅包括服务器端生成的日志信息(如HTTP请求),还包括代理服务器日志、浏览器行为日志等各类交互记录。这些数据构成了一个庞大的数据库资源库,并且其类型也非常丰富:包含注册信息、用户会话状态、页面浏览路径选择以及交易完成情况等多种维度的信息
值得注意的是,在同一个代理服务器下如何准确识别同一代理服务器下不同用户的会话信息与访问行为特征是一个关键问题。这个问题看似并不复杂,在实际应用中却能对挖掘效果产生重大影响
通常情况下讲,在大多数算法设计中这类问题可以通过简单的哈希或指纹机制来解决,并且经典的数据挖掘算法都可以直接应用于此类场景下的Web使用数据分析工作
基于以上因素的分析与研究, 我们可以将Web 用法挖掘划分为五大类: 包括但不限于数据来源类型, 数据类型特征, 用户行为模式以及服务器资源分配情况.
个性挖掘:基于单一用户的交互数据建立用户行为模型,并通过融合该用户的背景信息和行为数据来识别其偏好特点。旨在通过精准分析为其提供差异化的服务方案。
系统改进:涉及用户体验的关键指标包括Web服务(如数据库和网络系统)的性能及其服务质量。基于用户的拥塞记录数据进行Web行为分析能够识别出站点运行中的性能瓶颈问题。这些信息有助于指导网站管理者优化Web缓存策略、提升网络传输效率以及改善流量负载平衡和数据分布方案。此外,在网络安全层面进行深入分析时发现非法入侵行为的数据特征能够帮助识别出潜在的安全漏洞。提升网络安全防护水平对于电子商务平台的安全运营具有特别重要的意义
● 网站优化:网站的布局与信息是吸引用户的要素。Web 使用行为分析通过对用户使用数据进行挖掘研究为基础指导网站开发者进行优化工作,例如,如何安排网页布局应当作为重点,哪些网页应当方便访问等。
●智能商务:电子商务销售商应当关注的重点是如何引导用户体验Web站点的信息这一问题。用户的访问周期可以划分为被吸引、驻留、购买以及离开这四个阶段。通过分析用户的点击流等Web日志信息来探究用户的活动动机,并以此为基础协助电子商务运营者制定更为科学的营销策略。
这类研究主要关注通过统计各用户的交互行为来特征分析其访问情况
