972信息检索 | 第二章 信息检索的方法和技术
第二章 | 信息检索的方法和技术
信息检索的主要目的是在最短的时间内获得最满意的检索结果
网络信息检索的基本方法
布尔逻辑检索
该运算符以AND形式表示;也可以使用乘法符号进行计算。
此外,在某些情况下可以选择OR作为替代运算符。
否定运算通常以NOT标记;也可以使用And Not或者But Not的形式。
运算顺序遵循以下规则:否定运算具有最高的优先级,在必要时可先处理括号内的内容。
邻近检索(位置限制检索)
主要通过一些特殊的运算符来反映出查询语句中各关键词之间的顺序关系以及关键词之间的空格距离。
短语检索(精确检索)
使用
“ “表示
截词检索
该方法是指在数据库索引构造过程中,在字段中保存相同的字段,并以特定的占位符替代可变的字段内容(如问号‘?’、星号‘*’和感叹号‘!’等)。
字段限制检索
在信息检索过程中,在提高查全率和查准率的前提下,通过将检索范围限定在特定字段中进行操作。其中AB常用来表示文摘这一指标。
括号检索
用于改变运算的先后次序,括号内的运算优先
自然语言检索(智能检索)
直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样
多语种检索
支持多语言搜索界面让用户自行选择所需语种,在此平台上系统将根据选定的语言自动执行相关查询并返回相应的查询结果。
模糊检索
被称为能够实现信息综合检索的系统,在检索过程中不仅能够利用某个检索关键词,在查询时还能同时处理包括同义词、近义词、上位词以及下位词等多种形式的相关词汇。
区分大小写的检索
搜索工具认为当用户设置了仅限于大写字母时,默认会仅返回与其键入输入形式完全一致的结果;例如China,在这种情况下只会检索到中国的相关数据。
信息检索的主要技术
全文检索技术
全面信息检索系统是将所有内容转换为计算机可识别的信息单元形成的数据集合
特点包括:
- 包含丰富数据未经过处理的详细原始数据;
- 提供灵活高效的搜索功能;
- 支持多种格式的数据处理任意字符或字符串均可作为查询入口;
- 采用自然语言处理技术具有良好的人机交互特性;
- 存储系统较为稳定
缺点主要体现在:
检索系统的准确性不高且结果数量庞大用户很难从中筛选出高质量的内容
多媒体信息检索技术
音频的检索方式:1) 采用语音搜索的方式进行信息提取;2) 运用于音乐识别的技术实现数据处理;3) 应用到音频识别系统中以获取相关数据。
视频的检索方式:1) 将视频进行分段处理以满足信息需求;2) 利用关键帧抽取技术从大量数据中筛选出重要帧;3) 通过场景变化检测机制识别出不同场景并分类存储;4) 运用于故事情节重排系统中以恢复完整故事线。
超文本及超媒体检索技术
将信息与资源通过超链接进行连接,在检索时可以通过超链接来实现对相关信息的阅读
智能信息检索技术
采用人工智能进行信息检索的技术(可进行语义处理)
可视化信息检索技术 :
该系统通过将信息资源、用户提问以及相关的信息检索模型共同整合到一个二维或多维的信息可视化界面中, 摄像这些潜在的语义联系并展示出来, 从而让用户更好地理解检索结果并掌握搜索方向, 最终能够提升信息检索效率及性能水平。
跨语言信息检索技术
允许用户使用其熟悉的一种语言来构造检索式,并从中提取另一种或几种语言表达的信息。
跨语言信息检索技术的主要解决问题是"翻译"。
文本聚类技术
基于相应的特征空间中各对象间的亲疏远近程度来确定它们所属的类别。
自动化的聚类方法通过分析被分类对象的特征信息,并按照特定的分类算法将它们划分到不同的簇中去。
信息检索的技巧
信息检索的流程
检索策略:是为实现特定目标而制定的整体规划 ,针对一个问题或多个数据库输入所形成的完整查询方式集合。
分析信息需求
了解查询目的和要求
确定关键词
确定学科/主题/地域/语种/时间范围
确定信息类别
确定查询方式
确定资源性质
了解所要查询的目的和要求
清晰阐述信息检索的目的有助于明确后续工作的方向。这包括确定所需的信息类型和质量标准。例如,在进行学术研究时需要掌握基础知识,在解决实际问题时则需要最新的研究成果。
确定检索问题的关键词
确定与你的查询问题相关的关键词或术语
确定涉及的学科或主题范围、地域范围、语种范围、资源的时间范围
这些限定条件将有助于缩小检索范围,提高检索结果的相关性。
确定需要的信息类别
明确你所需要的信息类别有助于针对性地选择合适的资源和数据库。
确定查询方式(浏览、分类检索、关键词检索)
为了获取相关信息, 你可以通过查看资源目录或索引, 归类查找, 或者基于关键词搜索等方式进行操作.
确定资源的性质(学术?大众化?)
有助于选择适合的信息源和数据库
选择合适的检索工具
检索工具
检索大众化主题
搜索引擎
Google或百度等
期刊论文
中外文期刊数据库
CNKI
WOS等
背景与术语
在线百科全书
专业词典等
图书出版信息
联合目录
图书馆馆藏目录OPAC
WorldCat等
检索大众化的主题:
采用通用搜索引擎如Google和Baidu等执行关键词查询
建议通过调整关键词组合添加限定条件或利用高级筛选功能来缩小搜索结果范围
- 查找期刊论文:
- 首选CNKI、Elsevier等中外文期刊数据库
获取基本概念和概述术语可以通过查阅维基百科等资源来实现;专业词典数据库也是常用的查询平台。
- 获取图书出版信息:
- 可通过各图书馆馆藏目录系统(OPAC)、WorldCat等系统获取
确定检索点与检索词
- 搜索关键词:由用户或检索人员在特定系统中输入以定位相关条目的字、词、短语或字符
- 关键术语:指在文献标题、摘要或其他正文内容中出现的特定术语,并有助于准确描述研究主题的重要概念
避免抽象或模糊
获取更广泛的相关结果
扩大检索范围
使用引号
复杂的检索需求
选择关键词
使用名词或物体
控制关键词数量
2-3个
截词检索
利用OR
专有名词大写字母表示
精确检索
使用括号分组
选择关键词的建议:
- 选取与主题相关联的具体名词或物证作为关键术语 * 为了准确传达信息,在选词时应优先考虑与其密切相关的具体名词和物证,并将其定性为关键术语。 * 在描述概念时,请尽量避免使用过于笼统或不明确的语言表达。
在搜索模式中建议采用2至3个代表性词汇作为关键词。选择最具代表性和关键性的词语作为关键词,并避免因选取过多的关键字而导致检索结果过于繁杂。
- 截取前缀/后缀
- 可依据前缀、本体或首字母进行截取以获得更多相关条目。
- 该方法特别适用于需要覆盖同义词变体的情况。
-
通过
OR连接同义词、近义词或其他相关表达形式来实现- 将意义相近的词语用OR进行组合
- 这种方法能够进一步提高信息检索的广度
- 该技术尤其适用于多学科领域中的不同术语表达
-
特定名称的大写字体形式用于指定检索 * 为了准确找到特定名称或术语的相关信息资料, 采用大写字母形式进行搜索或定位操作。
-
针对固定短语, 采用双引号对其进行标记, 以便实现精准查找相关的内容.
采用括号对各关键概念进行区分,在处理复杂查询需求时非常实用
正确构造检索式
- 查询模式:亦称问题表达式,在检索策略中扮演核心角色,并指明系统应执行的具体搜索指令。
- 在利用搜索工具提供的检索运算时,应充分运用可使用的标识符和各种限定条件。
- 防止漏检的有效方法包括:合理设计查询逻辑以覆盖所有目标信息,并通过逐步细化筛选条件来提高准确性。
对于每个概念而言,请尽量列举其同义词、近义词、相关词汇甚至上位词汇与下级词汇。
通过布尔逻辑运算符OR将这些词语组合起来生成子检索模式。
运用适当的布尔逻辑运算符整合所有子检索模式从而构建总检索模式即"积木型检索模式"。
下面是一个关于积木型检索式的简单应用:
预想我们要深入研究高血压(hypertension)与心血管疾病(cardiovascular disease)之间的关系问题。为此可以采用以下所述的'积木型检索策略'来进行构建检索策略:
(高血压 OR hypertension) AND (心血管疾病 OR cardiovascular disease)
及时调整检索策略
扩大检索范围
采用布尔逻辑运算符“OR”,通过将同义词、近义词及相关词汇用“或”连接起来的方式实现信息检索功能
降低检索词的针对性: * 采用更加通用化的表达方式,尽量不使用过于专业化或具体的术语。
避免过度依赖布尔逻辑运算符 AND 用于连接不太重要的检索词。通过将关键术语通过 AND 联结,并对次要术语予以灵活处理的方式进行优化设计 ,可以有效缓解 overly strict 的检索条件带来的影响。
移除 Boolean 运算符 NOT 以去除冗余的约束条件。取消文献类型、出版年以及语种等不必要要求的做法将有助于提高搜索结果的覆盖面。
- 应用分类号进行文献类型查询: * 基于图书馆分类体系的索引机制用于文献类型查询。
第6步为截取前缀: * 通过查询核心词汇的前缀来实现涵盖更多变体和延伸词汇的效果
借助检索工具配备的自动扩检功能进行相关资料的检索:相当于利用该工具内集成的人工知识库系统,在获取基础信息后自动生成补充内容并辅助完成后续工作流程。
- 采用多种检索手段进行信息收集: * 通过平行查询不同类型的搜索工具和数据资源库,并扩大结果范围的扩展。
这种技术能够同时在多个搜索引擎或数据库中执行搜索操作,并整合所得结果。
基于信息资源整合平台的数据检索功能
缩小检索范围
- 使用逻辑 “
OR” 连接更多的关键词:- 以缩小检索范围并获得更精确的结果。
通过逻辑运算符 NOT 将不需要查找的关键词从检索结果中剔除,在此过程中可有效筛选出与研究主题相关的文献。
采用位置限定检索策略:设置在检索中关键词的位置参数,并根据文献标题字段值范围限定在[标题, 摘要, 正文]区间内以筛选出与特定字段值范围相关的文献。
-
通过字段限定筛选: 在搜索过程中限定关键词所在的字段(如作者、标题、主题词等),从而缩小搜索范围并提高筛选精度。
-
采用短语检索方式实现精准的文献查找: * 通过加号将关键词组合成一个短语,并利用该短语进行精准匹配操作,在数据库中从而找到与该短语相关联的文献资料。
采用缩略形式与全称:* 通过并行采用专业术语及其常见缩略形式,并结合多种检索手段实现多种表达方式的全面覆盖。
通过采用搜索引擎或数据库提供的高级搜索功能(包括高级筛选和详细筛选),能够更精确地获取所需信息。
在信息检索过程中设置特定的检索条件(如地域限定、时间维度、网站类别以及文件格式等),从而筛选出符合条件的文献资料。
检索结果的输出
输出方式
展示、拷贝、打印输出、下载文件、发送邮件以及输入到学术引用工具或个人信息管理系统。
输出形式
目录、题录、文摘、全文或自定义形式、选择性输出
