Advertisement

领域本体的构建方法研究

阅读量:

领域本体的构建方法研究

(马文虎,南京理工大学信息管理系)

目 录

引言... 1

1 本体的相关理论... 1

1.1 本体的概述... 1

1.1.1 本体的定义... 1

1.1.2 本体的构成... 2

1.1.3 本体的分类... 3

1.1.4 本体的应用领域... 3

1.2 本体的描述语言... 4

1.3 本体的编辑工具... 5

1.4 建立本体的难点... 5

1.5 本体研究的现状... 6

2 领域本体的构建研究... 6

2.1 领域本体构建遵循的原则... 7

2.2 本体的构建工程思想... 7

2.2.1 IDEF-5 方法... 7

2.2.2 Skeletal Methodology 骨架法(Uschold method) ... 第八条

2.2.3 TOVE 企业建模法... 8

2.2.4 Methontology 方法... 9

2.2.5 循环获取法... 9

2.2.6 七步法... 10

2.3 构建领域本体的步骤... 10

_2.3.1 界定核心领域的专业知识范围... 11

2.3.2 考虑复用现有的本体... 11

2.3.3 列出本体涉及领域中的重要术语... 11

_2.3.4 建立分类体系及其层次结构... 11

2.3.5 定义概念之间的关系... 12

3 当前领域本体构建方法及其存在的主要问题... 12

开发领域本体的知识工程体系... 12

3.2 基于叙词表的领域本体构建... 13

基于顶层本体构建领域本体的构建方法... 15

该领域本体构建过程中的主要问题包括第十六版的一些不足之处。

3.4.1 手工构建... 16

3.4.2 复用已有的本体... 17

3.4.3 自动构建本体... 18

结 论... 19

参 考 文 献... 20

要:

该领域本体构建方法已成为当前本体研究的重要议题之一。然而目前域内建模体系尚缺乏一套全面且系统化的工程化手段来应对各领域的建模需求。本文旨在阐述相关理论基础并结合普遍适用的原则探讨六种典型建模思路最终提炼出一套完整的构建流程框架。同时本文还深入剖析现有技术路线及其局限性以期为后续研究提供参考依据。

关键词:****

本体 领域本体 构建方法

引言

概念本体(Ontology)是近年来计算机及相关领域普遍关注的一个研究热点。它作为一种能在语义和知识层次上对信息系统的描述能力较强的概念模型建模工具,在知识工程、系统建模、信息处理等多方面得到了广泛应用[1]。自20世纪90年代以来,在各自的专业领域中对本体的理论体系与应用进行了深入探讨,并累积了大量具有参考价值的研究成果。然而,在领域本体构建方面仍面临着诸多挑战。本文旨在系统地探讨并深入分析当前领域本体构建所采用的各种方法及其存在的问题。

1 本体的相关理论

实体亦被称作本体,在形而上学这一哲学领域中占据重要地位。它通过分析与划分现实世界中的事物,在此基础上识别其实体的基本构成要素,并最终探究事物的本质属性[10]。

1.1 本体的概述

本体起源于哲学的概念, 用以刻画事物的本质特征。随后, 知识工程学者将其引入, 在构建知识系统的进程中被应用于积累领域知识[8]

1.1.1 本体的定义

近年来以来,在计算机知识工程领域中,“本体概念”如今得到了广泛的应用,并且被用来系统地描述客观世界的存在状态。这一做法不仅有助于实现知识的有效重用与交互交流,并且研究者们从不同视角和层面就本体论概念展开了界定与说明。

尽管各研究者对本体的概念表述各异,但从本质上说,他们都将其视为某一领域内不同主体(如人、代理及机器等)间进行信息交流的基础性语义框架,即通过提供明确定义的术语库来描述概念及其相互关系,并以此作为各方达成共识的基础[10].因此,其主要应用场景包括信息交流与共享、系统互操作性以及资源重用等.

该领域内所指的本体是一个由特定术语构成的体系组织架构,在其内部构成了一个系统的知识库框架基础。通常情况下而言,在现有的理论体系中,“概念模型需有明确规范说明”的核心体现即是所谓的本体这一概念。Fensel对该定义进行了深入分析后指出,本体概念涵盖了概念化、明确性、形式化以及共享性等四大核心要素。

总体而言,本体的主要任务或目的是收集、整理与表征相关领域的知识体系,构建对领域知识的统一认识框架,明确并一致地定义相关领域的核心术语,并从多维度的形式化表达体系以及它们之间的关联关系两个方面给出了系统的理论支撑[6].这种表征不仅能够系统地阐述领域内的基本概念及其相互关联,还确保了这些概念及其相互关系在公共认知域内的唯一性和一致性.这有助于实现人与系统之间的有效互动与协作[11].

通常情况下, 本体具备两大特性: 静特性和动特性-静特性指的是其反映的概念模型不涉及动态行为的变化; 动特性指的是服务的对象和内容都是根据不同的领域需求进行定义和构造的不同本体[6].

1.1.2 本体的构成

本体体系结构应包含三个核心要素:核心元素集合、元素间交互关系以及元素到规范语义的映射规则。现有规范中对本体体系结构的规定主要包括ISO 704标准和OKBC模型。根据ISO 704标准的规定,在本体体系结构中应包含概念、定义与术语三部分内容,并建议采用自然语言术语以达到理想表达效果。

对于本体的具体构造过程,可以用以下公式(1-1)形象地表示:

本体 = 概念(Concept) + 属性(Property) + 公理(Axiom) + 取值(Value) + 名义(Nominal) (1-1)[6]

Perez等采用分类体系构建了Ontology,并归纳出了本体论的核心构建单元(Modeling Units),具体包括以下五个维度:其一是类或概念(Classes or Concepts),其二是关系(Relations),其三是函数(Functions),其四是公理(Axioms),其五是实例(Instances)。

从语义上讲,基本的关系共有4种,如表1所示:

表1 基本的关系种类[9]

关系名 关系描述
part-of 表达概念之间部分与整体的关系。
kind-of 表达概念之间的继承关系,类似于面向对象中的父类与子类之间的关系。给出两个概念C和D,记C′={x∣x是C的实例},D′={x∣x是D的实例},如果对任意的x属干D′,X都属干C′,则称C为D的父概念,D为C的子概念
instance-of 表达概念的实例与概念之间的关系,类似于面向对象中的对象和类之间的关系。
attribute-of 表达某个概念是另一个概念的属性。如概念“颜色”是概念“玫瑰花”的一个属性。

在实际建模的过程中, 不必严格按照上述5类基本建模元语来构建Ontology模型, 概念之间的关系不仅局限于上述列举的4种基本类型, 而是可以根据具体领域的实际情况来定义相关的关系类型, 以满足应用的需求。实例如图1所示。

图1 本体的构成案例[8]

1.1.3 本体的分类

目前关于本体的研究范围广,在国外已有众多研究组织与机构致力于构建各自特色鲜明的本体体系。针对当前出现的各种多样化的本体形态,则形成了若干不同的分类标准;其中应用最普遍的是以本体应用主题为基础的分类方法,在这一基础上形成了五类主要类型:领域本体、通用或常识性本体、知识性本体、语言学性本体以及任务性本体等

在其中,在这一特定的研究范围内可重复利用的体系结构即为所谓的"领域本体"。这些系统不仅提供了该领域的具体概念定义及其相互关联关系,在涵盖各种活动过程的同时也构建了其基础理论体系。当前针对不同领域的"域知识"研究已延伸至多个相关学科分支。如企业学本体、医学概念学本体、酶催化作用学等

领域本体主要承担着规范专业术语和相关联的知识体系的任务;通过促进不同主体之间的知识共享和协作;有助于提升一定程度的知识复用效率[10]。

此外, Guarin也提出了将本体划分为两个维度的方法,即关注其详尽程度与领域相关性,并按照从高到低的顺序将其划分为四个层次类别:顶级本体基于top-level Ontologies,领域本体基于domain Ontologies,任务本体基于task Ontologies,应用本体则基于application Ontologies[12],如图2所示

图2 依照领域依赖程度的本体分类[5]

1.1.4 本体的应用领域

当前研究已经将本体技术成功地应用到了多个领域,在知识工程、自然语言处理、数字图书馆以及信息检索等多个方面都取得了显著进展,并且在Web异构信息处理与语义Web构建方面也得到了广泛应用。其中具有代表性的应用包括

(l)基于语义的信息检索,特别是网络搜索引擎和数字化图书馆。

(2)基于本体的数据集成、机器学习等。

领域本体的应用情况如下:例如,在生物信息学领域内构建完成的GeneOntology系统虽然仅包含part-of等基础性关系但这一系统在生物信息学界产生了深远的影响

(4)语义Web服务。

(5)在线元数据管理和自动信息发布。[10]

1.2 本体的描述语言

关于本体的标记语言也可称为置标语言,并称作本体构建语言或表示语言。充当表示本体的语言工具时,应具备以下核心功能:

  1. 为本体的构建提供建模元语(Modeling Primitives)。

为本体从自然语言的表示格式转化成为机器可读的逻辑表达格式提供标引工具

  1. 为本体在不同系统之间的导入和导出提供标准的机读格式。

formalized language representation can be utilized to represent the domain knowledge in a machine-readable format. This formalized representation can be directly stored, processed, and utilized by computers or enables systems to interact across different platforms. [9]

本体知识表示语言使得用户能够方便地构建领域模型中的清晰且形式化的核心概念体系,并因此该元数据语言必须具备完善且一致的语法规范和语义解释。
该元数据语言不仅需要提供强大的逻辑推理机制以支持复杂的分析需求,
还须确保其表达方式既简洁又高效。

从20世纪90年代起至今,众多研究者致力于该领域的探索,由此衍生出了众多本体表示语言,包括RDF及其扩展形式RDF-S,OWL(注:有人认为DAML+OIL是OWL的一个发展阶段),KIF,SHOE,XOL,OCML,Ontolingua,Cycl和Loom.

基于Web平台的本体语言(也被称为本体标记语言)包括:RDF与RDF-S、OWL以及SHOE等技术。其中,在W3C构建的知识服务架构中,RDF与RDF-S、OWL构成核心框架,并与XOL形成紧密的关系。相比之下,在网页制作工具领域中使用的SHOE则是基于HTML开发的一种增强型技术。

(2)基于人工智能技术的本体实现语言有:KIF、Ontolingua、Cycl、Loom、OCML和Flogic。虽然KIF已经成为一种标准化语言标准[10]但其主要应用领域仍局限于企业级系统中作为一种统一的数据交换格式它在互联网环境下的推广应用程度尚有限。

1.3 本体的编辑工具

到目前为止, 已经有多种本体构建工具出现. 根据这些工具所基于的本体建模语言, 主要可分为两大类.

第一类涉及Ontolingua、OntoSaurus以及WebOnto等技术方案。这三者之间的共同特点在于它们均建立在特定的基础语言之上,并且都能够处理多种人工智能相关的本体表示语言

第二类主要包含Protégé系列、WebODE、OntoEdit以及OliEd等多种工具。它们的核心特点在于能够独立于特定语言环境,并支持导入与导出多种基于Web的标准本体描述语言格式(如XML、RDF(S)、OWL等)。值得注意的是,OliEd是一种专门设计的本体编辑工具,而其余则是集成化的本体开发环境或一组功能完善的开发工件。这些工具能够支持从设计到应用整个生命周期内的各种活动,并且由于采用了模块化架构设计,使得可以根据具体需求轻松添加新的功能组件,从而具备良好的可扩展性[10]

1.4 建立本体的难点

构建过程是一个耗时耗力的工作,必须依靠一套规范化的方法来加以支撑,目前在特定领域的构建仍需依赖于相关专家参与建设。整体规模较大的本体极为罕见,大多数情况都是为了某一个具体的使用场景或者功能而定制化的,在实际运用过程中,不同构建间的协调工作包括映射对接、扩展整合以及根据实际需求从大型基础库中筛选出符合需求的小型子库等环节都需要得到妥善处理,此外,每当知识体系发生演变的时候,原有的构建体系也需要相应地进行优化调整以确保体系的一致性,这些都是属于本体工程所要解决的核心问题。

本体工程已成为当前研究领域中的一个重点探讨的话题。解决如何建立大规模本体构造的方法?实现不同本体系统的整合?维护本体知识库及其发展演变过程?这些问题的解决,则需要我们从方法论角度进行深入探讨。目前在这一领域内的研究仍处于初步探索阶段,并未形成系统化的方法论基础。因此该方向具有重要的理论价值与应用前景。

除此之外, 本体构造不仅需要理论探讨与实践相结合, 而且要实现具体构建过程. 如何利用软件系统辅助构建本体?这些软件在哪些领域能够实现自动化或半自动化操作?在本体开发过程中, 如何支持团队协作?不同领域开发的本体现在如何实现互联互通?构建完成后的本体又该如何进行管理和维护?这些问题目前仍属于该领域有待深入解决的关键议题. [4]

1.5 本体研究的现状

对本体的探讨与应用近年来发展迅速。于1998年6月召开的那一届"信息系统中的形式化本体论国际会议"标志着这一领域逐渐走向成熟。

基于国外的研究数据表明,在20世纪80年代末至90年代初这一时期里,“Ontology”这一哲学领域的概念被人工智能领域所借鉴,并推动了本体建模方法的初步确立。随后的时间里,在近年来有关本体建模的研究成果较为丰富的情况下,在知识工程领域内取得了进一步的发展进展。主要研究代表包括:① W3C(World Wide Web Consortium)在该领域的研究工作;② 德国卡尔斯鲁厄大学的相关学者Rudi Studer、Alexander Maeche及其领导下的AIFB研究所开展的基础性研究工作;③ 美国斯坦福大学的知识系统实验室(KSL)在开发与应用方面的具体实践探索[9]

与国外相比,在理论研究、实证研究以及技术手段的应用等方面国内均存在明显差距,在某些领域甚至处于明显的劣势地位;与国外高水平的研究成果相比,在技术创新和应用能力上存在显著鸿沟。在国内学界关于本体论的研究大致起源于二十世纪九十年代初期。

目前,在国内从事本体研究的主要力量有三个不同的科研团队。其一为中国科学院计算技术研究所、数学研究所以及自动化研究所中的若干个实验室;其二则是哈尔滨工业大学的计算机科学与技术系;其三则是浙江大学的人工智能研究中心。这些团队的代表人物包括陆汝铃院士、金芝博士以及武成岗和曹存根等;其中哈工大的杰出代表是王念滨博士;而浙大的人工智能研究中心则由高济教授领导,并以其在人工智能领域的深厚造诣而闻名。

国内外关键的本体系统主要包含以下实例:WordNet、FrameNet、SENSUS 以及 OntoSeek 等;其中还包括 Cyc 和 GUM通用上层模型(Generalized Upper Model);此外还有 HowNet 和 Mikrokmos 等

2 领域本体的构建研究

域本体(Domain ontology) 是一种规范性知识表达工具,其核心在于系统地描绘特定领域的基本概念及其相互关联关系,同时明确该领域的活动规范与运行规律,并通过形式化手段进行精确描述[16] 。目前域本体的构建模式主要包括以下几种:纯手工建构方式,基于现有域本体的知识复用技术实现的半自动化建构路径,以及基于机器学习算法实现的自动化建构策略[17] 。在这一章节中,我们将着重阐述手工建构域本体的具体方法,并系统归纳出域本体建构的基本步骤及其实施要点。

2.1 领域本体构建遵循的原则

由于现有本体种类繁多,在针对各自领域的问题特点和工程需求的情况下构建过程呈现出显著差异性。鉴于缺乏统一的本体构建方法这一现状,在致力于开发有效的本体构建方法的过程中出现了多种可供选择的标准体系。通过对现有研究进行系统梳理与归纳总结后可提炼出一套具有普遍指导意义的设计原则[10]:

清晰度与真实性:即概念应当以自然语言的形式提供清晰且公正的概念解释,并确保其定义准确无误。

② 完全性:即所给出的定义是完整的,完全能表达所描述术语的含义。

③ 一致性:即由术语得出的推论与术语本身含义是相容的,不会产生矛盾。

该本体的最大单调可扩展性即为在增添相关领域的专有名词或通用术语时无需调整现有部分

⑤ 最小承诺:即对待建模对象给出尽可能少的约束。

⑥ 最小编码偏差:本体的建立应尽可能独立于具体的编码语言。

⑦ 兄弟概念间的语义差别应尽可能小。

⑧ 使用多样的概念层次结构实现多继承机制。

⑨ 尽可能使用标准化的术语名称。

2.2 本体的构建工程思想

目前,在建立本体的过程中主要依赖于人工编辑的方式进行操作,并未形成一套系统化或工程化的流程体系。各开发团队均遵循特定的原则、制定统一的设计规范以及确立明确的术语定义体系。为了降低在本体构建过程中人为干预的影响程度, 随着人工智能技术的进步与应用推广, 现如今出现了多种基于AI的半自动化或完全自动化的本体构建方案. 相较传统完全依赖人工操作的传统方式而言, 这些方案在提高效率方面表现突出, 但仍未能达到现有的理论标准[12]. 比较知名的本体构建理念主要包括

2.2.1 IDEF-5方法

70年代初,IDEF概念被提出,并作为'Integrated Computer Aided Manufacturing'(ICAM)项目的定义方法的缩写。经过数十年的发展与完善,在1981年美国空军在ICAM项目中首次引入了IDEF方法。作为'Integrated Computer Aided Manufacturing'(ICAM)项目的定义方法的缩写,IDEF5由KBSI开发的一套系统性方法被用于描述和获取企业的本体知识库,并将其形式化为企业的本体知识库。该系统通过结合图表语言和细化说明语言的方式,在结构上获取关于客观存在的概念、属性和关系,并将其形式化为企业的本体知识库。

IDEF5构建本体的主要步骤包括:首先确定研究主题并组建研究团队;其次执行数据采集工作;随后对收集到的数据展开深入分析;接着基于分析结果构建基础本体模型;最后对模型进行优化并完成有效性验证。

2.2.2 Skeletal Methodolody骨架法(Uschold方法)

Mike Uschold与Micheal Gruninger提出的骨架法(Skeletal Methodology)被称为Enterprise方法。该方法特别用于构建企业本体(Enterprises ontology),它涉及企业的建模过程相关的本体构建。skeleton methodology的过程如图3所示

不符合
符合
确定只是本体应用的目的和范围
本体分析
本体表示
本体的建立
本体的评价
评价

图3 骨架法流程图[1]

2.2.3 TOVE企业建模法

TOVE法别称Gruninger & Fox评价法源自加拿大Toronto大学企业集成实验室在商业过程与活动建模领域的研究经验开发而成的TOVE方法论。该方法通过构建相应的知识逻辑模型来实现目标,并利用一阶逻辑构建了一个形式化的集成模型体系。该体系涵盖企业设计子系统、项目管理子系统、调度优化子系统以及服务提供子系统。

TOVE流程见下图。

设计动机
非形式化的系统能力问题
术语的形式化
形式化的系统能力问题
使知识本体趋于完备
将规则形式化为公理

图4 TOVE流程图[1]

2.2.4 Methontology方法

该研究团队提出的Methontology方法源自西班牙Madrid理工大学AI实验室。该方案通过融合骨架法与GOMEZ-PEREZ方法构建出一种更具通用性的本体构建方案。这一本体开发流程与软件工程开发流程具有较高的相似性。该系统将整个本体构建过程划分为两个主要阶段,并分别采用不同技术支持实现这一划分过程。

该系统专为构建与化学元素周期表相关的本体而设计,并在马德里大学理工分校人工智能图书馆获得实际应用。其工作流程主要包含以下几个方面:

在项目管理过程中这一阶段的系统规划将涵盖任务进展状况、所需物资以及确保成效的相关问题

(2)开发阶段:分为规范说明、概念化、形式化、执行以及维护五个步骤。

(3)维护阶段:包括知识获取、系统集成、评价、文档说明、配置管理五个步骤。

2.2.5 循环获取法

由Alexandra Maedche等组成的Cyclic Acquisition Process具有环状结构的基本特征。其基本流程主要包括以下几点:首先,在初始阶段...

资源选取:这是一个环形结构的核心起点,在知识表示与应用系统中具有重要意义。包括如Cyc、Dahlgren等大型通用本体、以及与之相关的词汇-语义网络系统如WordNet和GermaNet等技术手段都可以作为这一构建过程的基础选择。一旦选定基础本体框架后,则需要明确并准备提取与研究领域相关的具体实体信息。

在概念学习过程中,通过从选定的文本中提取相关领域知识,并构建其间的分类体系

专注于领域核心:排除与领域无关的元素。此时构建了目标本体的知识架构

在关系学习过程中,虽然可以从基础本体中继承一些关系资源,但剩余的关系则需要通过特定的学习方式来进行抽取.

评价:对其领域相关本体的相关性进行评估后,还可以继续执行上述步骤.

图5 循环获取法[12]

2.2.6 七步法

斯坦福大学医学院设计的领域本体构建方法,主要应用于构建领域本体的过程中。具体而言,该方法包含七个步骤: ① 首先明确领域核心概念与范围;② 评估现有本体是否可复用;③ 识别关键术语;④ 规范类及其层次结构(其中确定等级体系的方法有自顶向下法、自低向上法以及综合法[7]);⑤ 划分属性维度;⑥ 最后生成具体实例[1]。

2.3 构建领域本体的步骤

本体的建设与优化是一个持续不断地进行更新与演进的过程。
领域本体的概念应当对应于所研究的专业领域中的具体对象及其关联规则。
综合上一节所学的各种本体构建思路,在此归纳并总结出构建领域本体的主要步骤[11]:

2.3.1 确定领域本体的专业领域和范畴

在构建本体之前,首先要明确本体所涉及的专业领域及其应用方向.在这一过程中,还需要重点考虑本体系应重点发挥哪些方面的功能,并关注维护者与应用对象之间的关系.由于知识体系的复杂性,在具体实施时,应当根据各个阶段的任务划分,对模型的基本框架进行合理限定.

2.3.2 考虑复用现有的本体

该知识库的主要功能在于促进知识共享与复用。
在设计或构建自己的领域知识库之前, 应充分考虑如何利用已有的知识库.
当系统需与其他应用平台互动时, 若这些平台涉及特定领域的现有 Ontolingua 知识库或相关概念, 则复用现有知识库是一种有效的方法.
例如 Ontolingua 的本地语义文库可导入至本地ontology开发环境, 并且格式转换相对便捷.

2.3.3 列出本体涉及领域中的重要术语

域 本 体 主 要 涉 及 对 各 个 概 念 以 及 其 相 互 关 系 的 描 述 。 首 先 需 要 系 统 地 列 出 该 领 域 内 的 所 有 核 心 概 念 , 并 对 其 进 行 全 面 的 展 开 解 释 。 在 特 定 领 域 研 究 或 应 用 中 , 这些 核 心 概 念 即 为 相 关 专 业 的 专 业 术 语 。通 过 列 综 合 关 键 术 语 集 合 的 形 式 , 则 能 够 更 好 地 助 手 知 识 工 程 师 把 握 建 设 方 向 和 目 标 。除 此 外 , 对 每个 概 念 还 要 列 出 它 所 具 备 的 所有可能 属性 , 并 对 每个 属性 进 行 细 致 的 描述 其 对 应 属性 内 容。

2.3.4 定义分类概念和概念分类层次

概念分类层次对领域概念进行系统性分类与组织,并用于刻画领域内概念之间的隶属关系的同时实现了本体知识的模块化表达。构建一个分类概念层次体系可采用三种方法:自顶向下构建、自底向上构建以及综合构建策略。

一般领域概念的分类层次对应于一棵树

在建立领域概念之间的分类关联后,在各分类核心实体的基础上注入其对应的属性值以形成完整的知识模型体系。这种组织方式使得领域的各项核心实体以层次分明的树状架构得以展示,并由此可直观地反映出各领域核心实体间的隶属逻辑。每个子树体系则对应于领域内独立自主的知识单元体系。

领域分类概念应涵盖以下要素: 概念名称及其意义范围, 该类别的基本内涵与外围要素, 可能存在的相关术语或缩略形式等基础信息; 定义分类概念的过程即是对其构成要素进行系统性阐述; 此外, 须确保无一遗漏地涵盖所有核心内涵与外围要素, 并避免出现同义词重叠的情况, 同时确保每个核心内涵都有独立且完整的定义域范围

2.3.5 定义概念之间的关系

概念的分类体系结构反映了分类概念之间的继承关系(kind-of),但在领域本体构建过程中,各概念之间通过特定的关系进行交互作用。除了传统的继承关系外,在我们的系统设计中还可以根据具体需求定义其他类型的互动模式。

3 现有的领域本体构建方法及存在的问题

当前, 领域本体的构建主要依赖于人工方式进行, 这一过程往往需要投入大量的人力资源。由此可知, 本体的构建问题已成为推动第二代互联网技术发展的关键障碍。探索实现自动化或半自动化的方式构建领域本体也成为当前研究的重点内容。

国内外对本体构建方法的研究主要集中在以下两种途径上:其一,从知识工程的角度探讨本体的构建方法,可被归类为"本体工程";其二,探索如何利用现有的词表资源进行半自动式的转化。此外,丁晟春和李岳盟等人在此基础上提出了一种基于顶层本体的综合(即半自动)构建方法[13]。

3.1 构建领域本体的知识工程方法

知识工程方法的核心特征在于构建本体时需遵循特定的规范与标准。相较于常规的系统架构或功能设计模式,在本体体系中更加注重共性与互操作性。这使得整个本体构造过程呈现出明显的工程属性。在当前的研究与实践中较为成熟且广泛应用的方法主要包括TOVE法、Methontology方法、骨架法以及IDEF-5法等经典方案。这些方法大多是手工构建领域本体的具体实施方式,在上文中已有详细说明在此不再赘述

鉴于本体工程目前仍处在一个尚不完善的阶段

3.2 基于叙词表的领域本体构建

另一种名称为主题词汇表的体系也是一种重要的语义学工具书,在学科领域内用来系统地整理和表达相关概念之间的逻辑关联关系[15]。这种体系不仅包含该领域内的核心词汇信息,并且按照科学的方法进行了有序排列整理;其中所体现的概念间基本逻辑关系主要包括指代(用)、分类(代)、并列(分)、从属(属)以及相互参比(参)等几个主要类型。这种体系凭借其丰富的内涵以及系统化的知识组织形式,在理论构建方面与本体理论有着天然的契合性;它不仅能够完整地反映本学科领域的基础性专业术语体系,并且通过建立与本体理论之间的转换机制,在学术研究中发挥着越来越重要的作用

当前基于语料库的转换策略主要包括以下两种途径:其一是直接采用某种形式化的本体来描述语料库中的词汇及它们之间的关联;其二是将语料库视为本体的概念来源之一。无论是哪种策略,在生成最终形式化的本体时都需要补充必要的属性与关系描述,并引入相关的公理体系以及相应的函数实现。

目前已有多种国际化的术语表采用本体语言对原有概念进行系统化表达。其中较为成熟的方法主要包括以下几种:第一种是基于XML框架构建的术语元数据语言;第二种是采用RDF语义描述概念体系的方法;第三种则是通过DAML+OIL框架建立概念关系模型的方法;第四种是基于本体图实现的概念关联方法。这些方法各有特点,在不同领域中得到了广泛应用。例如,在医学领域常用本体图来表示概念间的关联关系;而在教育领域则多采用基于属性描述的概念体系;而在艺术与建筑领域则倾向于通过属性-实例关系模型来构建本体框架

当前国内关于对叙述词汇表转化的研究领域已进入了一个研究热点。其中,《国防科学技术叙述词汇表》与《中国农业科学叙述词汇表》的部分内容已经成功转化为本体原型。中国农业科学院科技文献信息中心的常春博士基于《中国农业科学叙述词汇表》中的"作物大类"概念构建了一个与"食物安全"相关的本体原型。目前针对本体原型的研究仍在不断深化和完善中。主要工作包括解决核心本体概念与转化而来概念之间的重复问题,并细化原对叙述词汇表中的关系网络结构。此外,在军事技术领域的相关研究也取得了进展:中国国防科技信息中心的研究人员唐爱民等人致力于探索如何基于defense领域的叙事词汇表构建相应的领域本体体系。他们结合Enterprise方法、Methontology方法与软件开发模型——"瀑布模型"提出了一种基于叙事词汇表的领域本体构建方法。研究人员利用《国防科学技术叙述词汇表》数据集成功地构建了军事航空领域的具体领域本体原型,并将该模型展示于图6中。

某学科领域叙词表
确定领域本体的应用目的
领域本体的整体设计
领域本体的详细设计
领域本体的表示
领域本体的评价
领域本体

图6 基于叙词表的领域本体的构建流程图[14]

具体而言,在分析领域本体时

把叙词转换成领域本体中的概念
根据叙词间的层次关系,确定所对应的 领域本体中概念间的等级关系
参考叙词的限义词、注释为领域本体中的 概念添加属性
参照叙词间的关系为领域本体中的概念添加关系
为领域本体中的概念添加实例

图7 详细设计流程图[14]

3.3 基于顶层本体构建领域本体的构建方法

丁晟春等指出,本体构建理论已较为完善。但在将构建完成的本体与实际应用需求相结合时,则会凸显出现有本体构建过程中的若干问题:领域本体构建与实际应用之间存在脱节现象;领域本体在复用和集成过程中面临诸多挑战;基于符号表的形式难以直接转化为有效的本体模型;当前本体构建的概念体系尚显不够规范化[13]。

针对存在于本体构建与应用中的问题, 她们对现有的各种本体构建技术进行了深入分析, 并重点关注了国外在这一领域具有重要影响力的三大顶级框架(Cyc、SENSUS 和 SUMO)。随后, 她们邀请中科院文献情报中心以及中国农业科学院科技信息文献中心的技术专家共同探讨当前存在的问题及解决方案, 并在此基础上提出了基于顶级框架开发领域特定领域的指导方案。该方案立足于当前领域知识工程理论的成熟度以及特定领域的知识表示特点, 同时借鉴骨架法与七步工作法的核心思想, 并结合语义索引技术和规范化的概念体系处理策略提出了一套完整的标准化工作流程

该研究方法的主要思路在于:基于本体工程的基本理念,在采用词汇表法的基础上进行系统性词汇筛选,并在选择适合的上层本体时,在针对领域内的概念体系进行系统化设计的基础上完成底层概念体系的规范化构建,并将其整合到上层框架中。如图8所示展示了基于上层框架的概念化结构框架

修正和进化
标准化处理
确定本体的领域和范围
考虑复用现有本体
定义类及类的等级体系
定义类的属性
创建实例
概念的规范化处理
顶层本体
本体表示
本体评价
合并入顶层本体
概念 体系 构建

图8 基于顶层本体的构建方法框架[13]

基于上述提出的基于顶层本体的概念综合构建方案,在遵循《国防科学技术叙词表》进行规范性概念提取的基础上, 系统性地构建了一个具有实用价值的军用飞机领域本体框架(其中包括约300个分类项、70个属性指标以及近900个实际应用场景的具体实例); 通过对现有研究中上层通用本体SUMO架构的标准与体系架构进行了深入剖析, 成功实现了域内本体与SUMO平台的有效对接, 这一过程既体现了当前技术的发展水平, 同时也为后续研究指明了新的探索方向

3.4 领域本体构建过程中存在的问题

当前领域本体构建的主要三种途径包括:人工搭建、基于现有本体的复用以及自动化构建等手段,在这些方法中前两种应用最为广泛。值得注意的是,在实际应用中发现主要采用人工搭建的方式存在诸多不便

3.4.1 手工构建

虽然本体编辑工具在过去十年已相对完善

以上本体的建设方法存在主要问题有以下几点[7]:

  1. 需求描述不充分和建设过程的无计划性

对于某个领域而言,在进行本体构建时所面临的需求具有高度复杂性。若在构建过程中缺乏清晰规划,则可能导致构建过程缺乏系统性和结构性的指导原则,在这种情况下可能会不得不频繁调整构建方案。

  1. 建设过程缺少规范性

目前领域本体建设尚未形成系统的理论基础,并非没有相关方法论可供参考

  1. 成果没有评价标准

本体的评估手段缺乏统一规范,也缺少规范化的评估基准.由于无法对本体的建设成果进行科学评估,这必然会导致下一阶段的技术发展受到影响.

  1. 忽视本体的共享和重用

领域本体建设的目的并非仅限于为某一特定系统提供服务;而是以不同系统的交流需求为基础建立语义基础。 本体构建的过程本身即为人类知识机器化的重要积累过程;而共享与重用则成为 本体构建的核心价值;这也是领域本体建设中的一个重要议题

3.4.2 复用已有的本体

如前所述介绍的以词表为基础构建方案与以顶层本体为基础构建方案均为复用现有本体实现半自动化构建的方法。通过利用已有的本体能够获取领域相关的知识体系及其概念间的关联关系,并由此形成良好的初始框架基础。

目前可复用的本体资源主要包括:① 词汇表资源,例如中国农业科学词汇表与国防科学技术词汇表等;② 基础本体库系统如Cyc与SUMO;③ 数据化存储池;④ 网络本体存储库;其中包括 Ontology 工程研究组与DAML 等项目

然而目前很少有现存无需经过修改即可被复用的本题库系统

3.4.3 自动构建本体[17]

本体自动生成已成为当前研究的一个重要方向。
研究人员在知识获取领域参考了多种技术路径,在自然语言处理规则的基础上提出了若干方法,并结合统计分析与机器学习相结合的方式。
当前这类构建机制仍处于探索阶段,
运用机器学习算法可能导致大量无意义的数据输出,
缺少系统化的语义关联框架,
提取出的概念间联系较为零散,
并且其可信度有待进一步提升。
借助于自然语言处理技术手段,
在分析概念间的潜在联系时,则需要借助于较为复杂的自然语言处理模型。
虽然机器学习技术在本体自动生成中的应用前景广阔,
然而与具备良好可解释性的要求相比仍存在较大差距。
随着研究的深入这种状况应该有望得到改善。

结 论

该领域共性化的概念与形式化的知识体系即为本体。随着网络技术的发展尤其是第三代互联网建设对域本体的需求日益增长这一支撑体系的重要性愈发凸显。当前域本体主要通过人工方式构建耗时较长制约着第二代互联网的整体发展进程因此本体体系的完善与优化已成为亟待解决的关键问题。

本文基于笔者对大量期刊及学位论文等学术资源库的研究成果而形成。论文首先系统地介绍了本体的相关理论体系(涉及定义域、描述语言以及建设工具等方面)。随后并结合领域本体的一般构建原则全面阐述了各类领域本体构建的方法与存在的问题。

领域本体的创建起点源于多种情况。具体而言,它可以基于数据采集启动;也可以继承现有本体框架;还可以利用外部数据资源作为基础;或同时采用上述两种策略进行混合初始化。在实现难度上可分为人工主导型、半自动结合型及全自动模式。当前,全自动化的方法仅能支撑有限约束条件下的轻量化知识库架构搭建工作

参 考 文 献

[1] 刘仁宁,李禹生. 领域本体构建方法[J].武汉工业学院学报,2008,27(1):73-77.

[2] 李景,苏晓鹭,钱平. 构建领域本体的方法[J]. 计算机与农业,2003 (7): 7-10.

[3] 顾芳. 多学科领域本体设计方法的研究[D]. 北京:中国科学院计算机研究所,2004.

[4] 张小鹏. 汉语特定领域本体的自动构造研究[D]. 武汉:华中师范大学,2007.

吴正超的研究成果作为学位论文发表于《基于关系型数据库的领域本体自动化构建方法研究》,由大连海事大学工程学院控制理论与控制工程专业博士生吴正超完成

[6] 廖军. 基于领域本体的信息检索研究[D]. 长沙:中南大学,2007.

[7] 刘爱军. 基于领域本体的语义信息检索及相关技术研究[D]. 西安:西北大学,2008.

[8] 翟林. 领域本体的半自动构建方法研究与实现[D]. 南京:东南大学,2005.

[9] 陈建. 领域本体的创建和应用研究[D]. 北京:对外经济贸易大学,2006.

[10] 郭嘉琦. 领域本体构建过程及其在信息检索领域的应用研究[D]. 北京:北京邮电大学出版社, 2007.

[11] 张志刚. 领域本体构建方法的研究与应用[D]. 大连:大连海事大学,2008.

[12] 张小芳. 基于语义网的领域本体的半自动构建方法的研究[D]. 大连:Dalian海事大学, 2008.

[13] 丁晟春、李岳盟、甘利人. 以顶层本体为基础的领域本体综合构建方法研究[J]. 情报理论与实践, 2007, 30(2): 236-240.

[14] 唐爱民,真溱. 基于叙词表的领域本体构建研究[J]. 现代图书情报技术,2005(4):1-5.

[15] 孙倩,万建成. 基于叙词表的领域本体构建方法研究[J]. 计算机工程与设计,2007,28(20):5054-5056.

[16] 肖敏. 领域本体的构建方法研究[J]. 情报杂志,2006(2):70-72.

[17] 何琳,杜慧平,侯汉清. 领域本体的半自动构建方法研究[J]. 图书馆理论与实践,2007(5):26-28.

全部评论 (0)

还没有任何评论哟~